23.1.3. Használati példák és best practice

2025.10.06.
AI Biztonság Blog

Az eszközök telepítése csak az első lépés. Az igazi kihívás és a valódi érték a hatékony, célorientált alkalmazásukban rejlik. Ez a fejezet gyakorlati kérdésekre ad választ, hogy ne csak telepíteni, hanem mesterien használni is tudd a nyílt forráskódú red teaming arzenált.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Melyik eszközt válasszam egy adott feladatra?

A leggyakoribb kérdés, ami a telepítés után felmerül. Nincs egyetlen, mindenre jó eszköz. A választás mindig a konkrét céltól, a modell típusától és a tesztelési környezettől függ. Az alábbi táblázat segít a döntésben a leggyakoribb támadási vektorok mentén.

Eszközválasztási mátrix gyakori red teaming feladatokhoz
Tesztelési Cél Ajánlott Eszközök Indoklás és használati tipp
Prompt Injection garak, promptmap Ezek az eszközök nagy mennyiségű, előre generált vagy sablon alapú payloadot tartalmaznak. Ideálisak a széles körű, automatizált sebezhetőség-kereséshez. Kezdd a garak általános tesztjeivel, majd finomhangolj a promptmap segítségével.
Adatszivárgás (Data Leakage) llm-guard, Rebuff Ezek az eszközök nem a támadásra, hanem a kimenet elemzésére fókuszálnak. Integráld őket a modell kimeneti csatornájába, és figyeld, mikor szivárogtat ki érzékeny információt (pl. PII, API kulcsok) a modell.
Jailbreaking és Szerepjátszás AI-Red-Team-Tools (gyűjtemény), manuális próbálkozások A kreatív jailbreak támadásokhoz ritkán elég egy automatizált eszköz. Használd a gyűjteményekben található ötleteket és promptokat kiindulási alapnak, de a sikeres támadásokat szinte mindig kézzel kell finomítani.
Toxikus Tartalom Generálása garak (toxic plugin), llm-guard (output scanner) A garak képes provokálni a modellt, hogy generáljon káros tartalmat. A llm-guard pedig a védekező oldalon ellenőrzi, hogy a modell kimenete megfelel-e az etikai irányelveknek. Használd a kettőt együtt a támadás és a védekezés tesztelésére.

Hogyan integráljam ezeket a meglévő munkafolyamatomba?

Az AI red teaming akkor a leghatékonyabb, ha nem egy egyszeri esemény, hanem a fejlesztési ciklus (SDLC/MLOps) szerves része. A legtöbb parancssori eszköz könnyen beilleszthető a meglévő CI/CD (Continuous Integration/Continuous Deployment) folyamatokba.

Tipikus CI/CD integráció

Képzelj el egy plusz lépést a build pipeline-ban, közvetlenül a modell kiadása előtt. Ez a lépés lefuttat egy alapvető biztonsági és megbízhatósági tesztcsomagot.

Fejlesztés Build & Unit Test AI Red Team Scan (pl. garak futtatása) Deployment

Egy egyszerű GitLab CI vagy GitHub Actions szkriptben ez így nézhet ki:

# .gitlab-ci.yml példa
ai_security_check:
 stage: test
 image: python:3.10
 script:
 - pip install garak
 # A modell API végpontját környezeti változóból olvassuk be
 - echo "Modell biztonsági ellenőrzése..."
 # Futtatunk egy alap prompt injection és toxicitás tesztet
 # A --report_file argumentummal a build artifactumok közé mentjük az eredményt
 - garak --model_type huggingface --model_name $MODEL_ENDPOINT --probes injection.all toxic

Ha a garak futása során kritikus sebezhetőséget talál, a pipeline megszakad, megakadályozva a sérülékeny modell élesítését.

Milyen buktatókra figyeljek? (Best Practice)

Az eszközök önmagukban nem oldanak meg mindent. A hatékonyságod a módszertanodon múlik. Íme néhány bevált gyakorlat, ami segít elkerülni a gyakori hibákat.

Kezdd szűkített, célzott tesztekkel!

Ne futtasd le az összes létező tesztet egyszerre. Ez rengeteg zajt generál és nehezen elemezhető eredményt ad. Válassz ki 1-2 prioritást (pl. „ne szivárogtasson személyes adatot”) és fókuszálj arra. Ha az már rendben van, jöhet a következő.

Logolj mindent!

Minden egyes promptot, a modell válaszát, a használt eszköz verzióját és konfigurációját mentsd el. Amikor találsz egy hibát, a reprodukálhatóság kulcsfontosságú lesz a fejlesztők számára. Egy jó log segít ebben.

Ne csak a „sikertelen” tesztekre koncentrálj!

Egy teszt, ami nem talált hibát („passed”), ugyanolyan fontos információ. Azt jelzi, hogy a modell az adott támadási vektorral szemben ellenálló. Ezeket az eredményeket is dokumentáld, mert ezek építik a bizalmat a modell biztonságában.

Kombináld az automatizált és a manuális tesztelést!

Az automatizált eszközök kiválóak az „alacsonyan lógó gyümölcsök” megtalálására és a regressziós tesztelésre. Azonban a komplex, több lépéses, kontextusfüggő támadásokhoz (pl. kifinomult social engineering) továbbra is emberi kreativitásra van szükség. Az eszközök adják a szélességet, te pedig a mélységet.

Ismerd a modell korlátait és célját!

Mielőtt hibát jelentenél, győződj meg róla, hogy a modell viselkedése valóban hiba, és nem egy szándékolt funkció vagy ismert korlát. Egy chatbotnak, amit arra terveztek, hogy kreatív történeteket írjon, mások a „helyes” viselkedési normái, mint egy orvosi diagnosztikai segédnek.