AI Red Teaming szótár

2025.10.12.
AI Biztonság Blog

Az AI rendszerek biztonsága komplex és úttörő terület, tele specifikus fogalmakkal és módszerekkel. Ebben az AI Red Teaming lexikonban több száz kulcsfontosságú kifejezést találsz magyarázatokkal, amelyek elengedhetetlenek az AI biztonság proaktív megértéséhez és alkalmazásához.

Adverzális támadás (Adversarial Attack)

Olyan szándékos támadási technika, ahol egy rosszindulatú szereplő apró, emberi szem számára gyakran észrevehetetlen módosításokat hajt végre a bemeneti adatokon (pl. képen, szövegen, hangon). A cél az, hogy a mesterséges intelligencia modell téves, a támadó által előre meghatározott kimenetet adjon. Ezzel a módszerrel manipulálhatod a modell viselkedését és megbízhatóságát.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

AI Összehangolás (AI Alignment)

Az a folyamat és kutatási terület, amely biztosítja, hogy egy AI rendszer céljai, viselkedése és döntései összhangban legyenek az emberi értékekkel és szándékokkal. Lényegében arról szól, hogy az AI azt tegye, amit szeretnél, és ne okozzon nem szándékolt káros következményeket. Ez a terület az AI biztonság és etika egyik alapköve.

Adat-mérgezés (Data Poisoning)

Olyan támadási forma, ahol szándékosan manipulált vagy rosszindulatú adatokat juttatsz be a modell tanítási adathalmazába. Ezáltal a modell megtanulhat hibás vagy káros viselkedésmintákat, hátsó kapukat (backdoors) hozhat létre, vagy csökkentheted a teljesítményét bizonyos feladatokban. Az adat-mérgezés már a fejlesztési ciklus korai szakaszában kompromittálja a modellt.

AI Audit

Az AI Audit a mesterséges intelligencia rendszerek szisztematikus és független vizsgálata, amelynek célja a teljesítmény, a biztonság, az etikai megfelelőség és a megbízhatóság értékelése. Egy AI audit során felméred a lehetséges kockázatokat, torzításokat és sebezhetőségeket. A red teaming gyakran egy ilyen audit gyakorlati, támadó jellegű része.

Algoritmikus torzítás (Algorithmic Bias)

Az a jelenség, amikor egy AI rendszer szisztematikusan, ismétlődően és tisztességtelenül hoz hátrányos döntéseket bizonyos egyénekkel vagy csoportokkal szemben. Ez a torzítás gyakran a tanító adatokban rejlő előítéletekből fakad, de származhat a modell architektúrájából vagy a rosszul megválasztott célfüggvényből is. Ennek azonosítása és mérséklése az AI etika központi feladata.

Adverzális tréning (Adversarial Training)

Olyan védekezési technika, amellyel robusztusabbá teheted a modelleket az adverzális támadásokkal szemben. A folyamat során a modellt nemcsak tiszta, hanem szándékosan generált adverzális példákkal is tanítod. Ezáltal a modell megtanulja felismerni és helyesen kezelni a manipulatív bemeneteket, javítva az általános ellenálló képességét.

Álcázott prompt (Jailbreaking/Prompt Injection)

Olyan speciálisan megalkotott bemeneti utasítás (prompt), amelynek célja, hogy megkerülje az LLM biztonsági korlátozásait és tartalmi szűrőit. Ezzel a technikával ráveheted a modellt, hogy a szabályzatával ellentétes, káros, etikátlan vagy tiltott tartalmat generáljon. Az ilyen promptok gyakran szerepjátékot, kódolási trükköket vagy összetett logikai csavarokat alkalmaznak a védelem kijátszására.

API biztonság (AI kontextusban)

Azoknak a biztonsági intézkedéseknek az összessége, amelyek az AI modellt kiszolgáló alkalmazásprogramozási felületet (API) védik. Ide tartozik a megfelelő hitelesítés, jogosultságkezelés, a kérések korlátozása (rate limiting) és a bemenetek validálása a visszaélések (pl. prompt injection, DoS támadások) megelőzése érdekében. A nem biztonságos API egy könnyű belépési pont a támadók számára.

Automatizált Red Teaming

Olyan folyamat, ahol egy másik AI rendszert (vagy akár ugyanazt a modellt) használsz egy cél AI modell sebezhetőségeinek, hibáinak és nem kívánt viselkedésének automatikus felderítésére. Ez a módszer képes nagy mennyiségű tesztesetet generálni és szisztematikusan keresni a gyenge pontokat, például a biztonsági szűrők megkerülésének lehetőségeit. Ezzel felgyorsíthatod és skálázhatod a biztonsági tesztelést.

Adatszivárgás-megelőzés (Data Leakage Prevention)

Azok a technikák és folyamatok, amelyek megakadályozzák, hogy egy LLM érzékeny vagy privát információkat (pl. személyes adatokat, üzleti titkokat) fedjen fel a válaszaiban. Ez magában foglalhatja a tanítási adatok szűrését és anonimizálását, valamint a modell kimenetének valós idejű monitorozását és szűrését. Különösen fontos, ha a modellt bizalmas adatokkal használod.

Attribúció (Attribution)

Az a folyamat, amelynek során megpróbálod megállapítani, hogy egy adott AI által generált tartalom (szöveg, kép) honnan származik, vagy melyik tanítási adat befolyásolta a leginkább. A biztonság szempontjából ez segíthet a dezinformációs kampányok forrásának felderítésében vagy egy adatmérgezési támadás nyomainak visszakövetésében. Az attribúció a generatív AI-k átláthatóságának egyik kulcskérdése.

Anomália észlelés (Anomaly Detection)

Olyan technika, amellyel az AI rendszer használatában szokatlan vagy gyanús mintákat azonosíthatsz. Ez magában foglalhatja a hirtelen megváltozó promptolási stílusokat, a szokatlanul nagy számú kérést egy adott IP-címről, vagy a modell belső működésében fellépő furcsaságokat. Az anomália észlelés segít a potenciális támadások vagy visszaélések korai felismerésében.

Bázismodell

Az az alapvető, előtanított nyelvi modell, amelyre a további finomhangolást (fine-tuning) vagy RAG rendszereket építed. A bázismodell biztonsági hiányosságai és elfogultságai öröklődhetnek a ráépülő specializált modellekre, ezért a biztonsági elemzése kulcsfontosságú.

Bayes-i módszerek a biztonságban

Olyan statisztikai technikák, amelyeket a modell kimenetének bizonytalanság-mérésére használsz. Segítenek azonosítani azokat a válaszokat, amelyekben a modell nem biztos, így jelezve a lehetséges hallucinációkat vagy a támadási kísérletre adott instabil reakciókat.

Beágyazott elfogultság (Embedded Bias)

A modell betanítási adataiban, architektúrájában vagy célfüggvényében rejlő rendszerszintű torzítás. Ezek az elfogultságok méltánytalan, diszkriminatív vagy káros kimenetekhez vezethetnek, amelyeket egy AI red teaming folyamat során fel kell tárni és dokumentálni.

Beépített hátsó kapu (Backdoor Attack)

Olyan rejtett sebezhetőség, amelyet szándékosan juttatnak a modellbe a betanítási fázisban, például adatmérgezéssel. Ezt a hátsó kaput egy speciális, triggernek nevezett bemenettel aktiválhatod, hogy a modell egy előre meghatározott, rosszindulatú viselkedést produkáljon.

Bemeneti manipuláció (Input Manipulation)

Az a folyamat, amely során szándékosan úgy módosítod a modellnek adott bemenetet (promptot), hogy az a tervezett működésétől eltérő, nem kívánt vagy káros választ adjon. Ez a gyűjtőfogalma a prompt injection, jailbreaking és egyéb prompt-alapú támadásoknak.

Bemeneti szűrés és validálás (Input Filtering & Validation)

Alapvető védelmi technika, amely során a felhasználótól érkező promptot még a modellhez való továbbítás előtt elemzed és megtisztítod. Ezzel a módszerrel kiszűrheted az ismert támadási mintákat, rosszindulatú kódrészleteket vagy a biztonsági irányelveket sértő kulcsszavakat.

Betanítási adatok mérgezése (Training Data Poisoning)

Támadási technika, amely során szándékosan manipulált vagy rosszindulatú adatokat juttatsz a modell betanítási adathalmazába. A cél, hogy a modell megtanuljon bizonyos sebezhetőségeket, elfogultságokat vagy hátsó kapukat, amelyeket később ki lehet használni.

Bizalmas adatok kiszivárogtatása (Confidential Data Leakage)

Az a biztonsági rés, amikor a modell a válaszaiban véletlenül felfed olyan érzékeny vagy privát információkat, amelyek a betanítási adatai között szerepeltek. A red teaming során tesztelned kell, hogy a modellből különböző promptokkal előcsalogathatók-e ilyen adatok.

Biztonsági benchmark (Security Benchmark)

Olyan szabványosított tesztkészlet és metrikarendszer, amelyet arra használsz, hogy objektíven felmérd és összehasonlítsd a különböző AI modellek biztonsági teljesítményét. A benchmarkok általában ismert támadástípusok (pl. jailbreaking, adatmérgezés) elleni ellenállóképességet mérnek.

Biztonsági korlátok (Guardrails)

Olyan programozott szabályrendszerek vagy másodlagos modellek, amelyek a fő LLM működését felügyelik és korlátozzák. Céljuk, hogy megakadályozzák a káros, etikátlan vagy az irányelveket sértő tartalmak generálását, még akkor is, ha a fő modell erre hajlamos lenne.

Biztonsági szűrők kijátszása (Bypassing Safety Filters)

Olyan AI red teaming technika, amely során kreatív és összetett promptokkal (pl. szerepjáték, hipotetikus forgatókönyvek) próbálod megkerülni a modellbe épített biztonsági mechanizmusokat. A cél annak feltárása, hogy a védelmi vonalak mennyire robusztusak a kifinomult támadásokkal szemben.

Blue Teaming (AI Védelem)

A Red Teaming védekező párja, amely az AI rendszerek védelmére, a támadások valós idejű észlelésére és elhárítására fókuszál. A blue team feladata a biztonsági monitorozó rendszerek (pl. prompt-elemzők, kimenet-validátorok) fejlesztése és üzemeltetése.

Brute-force promptolás (Brute-force Prompting)

Automatizált támadási módszer, ahol nagy mennyiségű, szisztematikusan generált prompt variációt küldesz a modellnek. A cél, hogy véletlenszerűen vagy ismétlődő minták segítségével megtaláld azt a bemenetet, amely egy sebezhetőséget vagy egy sikeres jailbreaket vált ki.

Feketedobozos támadás (Black-Box Attack)

Olyan támadási forgatókönyv, amelyben a modell belső működéséről, architektúrájáról vagy paramétereiről semmilyen információval nem rendelkezel. Kizárólag a modell API-ján keresztül, bemenetek küldésével és a kimenetek elemzésével próbálod feltárni a sebezhetőségeit.

Célzott adverzárius támadás

Olyan támadási forma, ahol szándékosan, apró és emberi szem számára gyakran észrevehetetlen módosításokat hajtasz végre a bemeneti adatokon (pl. képen vagy szövegen). A célod az, hogy az MI modellt téves következtetésre, helytelen klasszifikációra vagy hibás kimenet generálására vedd rá. AI red teaming során ezzel teszteled a modell robusztusságát.

Cenzúra megkerülése (Jailbreaking)

Olyan speciális promptolási technika, amelynek célja, hogy kijátssza a nyelvi modellbe épített biztonsági korlátozásokat és tartalomszűrőket. Ennek során a modellt ráveszed, hogy olyan témákról generáljon szöveget, amelyek tiltottak, etikátlanok vagy veszélyesek lennének. A red teamerek ezt a modellt gyenge pontjainak feltárására használják.

Copyright sértés

Az a helyzet, amikor egy generatív MI modell a kimenetében jogvédett tartalmat hoz létre anélkül, hogy erre engedélye lenne. Ez történhet a tréningadatok túlzott ismétlődése miatt (regurgitáció), és komoly jogi és etikai problémákat vet fel. A biztonsági tesztelés során vizsgálod, hogy a modell hajlamos-e ilyen típusú kimenetet adni.

Contextus eltérítés (Contextual Hijacking)

Olyan prompt injection technika, ahol a támadó módosítja a modellnek adott kontextust, hogy a kimenetet a saját céljaira irányítsa. Például egy ártatlannak tűnő szövegbe rejtett instrukcióval ráveheted a modellt, hogy az eredeti feladat helyett egy teljesen más, potenciálisan kártékony utasítást hajtson végre. Ez különösen veszélyes, ha a modell külső eszközökhöz (API-khoz, adatbázisokhoz) fér hozzá.

Célzott kódinjektálás

Az a támadási vektor, amikor egy nyelvi modellt ráveszel, hogy rosszindulatú kódot (pl. SQL, JavaScript, Python) generáljon és esetlegesen végre is hajtsa. Ha a modell kimenete közvetlenül egy végrehajtó környezetbe kerül, ezzel a módszerrel sebezhetőségeket lehet kihasználni a háttérrendszerekben. A red teaming feladata az ilyen jellegű sebezhetőségek felderítése.

Csalóka kimenet generálása

Olyan tevékenység, amely során a modellt megtévesztő, hamis vagy manipulatív tartalom (pl. adathalász e-mailek, álhírek, hamis termékértékelések) előállítására használod. Az LLM biztonság egyik fő kihívása az ilyen típusú visszaélések megakadályozása. A tesztelés során azt vizsgálod, milyen könnyen vehető rá a modell ilyen tartalmak létrehozására.

Csali prompt (Bait prompt)

Olyan red teaming technika, ahol egy látszólag ártalmatlan és releváns kérdést vagy feladatot adsz a modellnek, ami valójában rejtett csapda. A cél az, hogy a modell a válaszadás során akaratlanul felfedjen érzékeny információkat a tréningadataiból, a működéséről vagy a biztonsági szűrőiről. Ezzel a módszerrel a modell belső korlátait teszteled.

Célfogalom-eltolódás (Concept Drift)

Az AI safety egyik fontos jelensége, amikor a valós világban használt adatok statisztikai tulajdonságai idővel megváltoznak a tréningadatokhoz képest. Ennek eredményeként a modell teljesítménye leromlik, pontatlanná vagy akár veszélyessé válhat. A biztonsági monitorozás feladata az ilyen eltolódások időben történő észlelése és kezelése.

Chain-of-Thought (CoT) manipuláció

Ez a támadás a modell „gondolkodási láncát” célozza meg, amely során a komplex problémákat lépésekre bontva oldja meg. Egy támadó olyan hibás vagy megtévesztő logikai lépéseket injektálhat a promptba, amelyek a modellt helytelen, de logikusnak tűnő következtetésre vezetik. Ezzel a modell belső érvelési folyamatainak sebezhetőségét teszteled.

Confidenciális adatok kiszivárogtatása

Az egyik legkritikusabb LLM biztonsági kockázat, amikor a modell a kimenetében véletlenül vagy egy célzott támadás hatására személyes, üzleti vagy más érzékeny információkat fed fel a tréningadataiból. A red teaming során olyan promptokat hozol létre, amelyek kifejezetten ilyen adatszivárgást próbálnak előidézni, hogy felmérd a kockázat mértékét.

Célzott dezinformáció

Nagy nyelvi modellek szándékos felhasználása nagy mennyiségű, meggyőző, de hamis információ előállítására és terjesztésére. Ez politikai, társadalmi vagy pénzügyi célokat szolgálhat. Az AI etika és biztonság egyik fő feladata olyan mechanizmusok kifejlesztése, amelyekkel az ilyen típusú tartalmak detektálhatók és megjelölhetők.

Célzott modell-kiéheztetés (Model Denial of Service)

Olyan támadási forma, ahol a támadó rendkívül erőforrás-igényes promptokat küld a modellnek. A cél az, hogy a modell számítási kapacitását lefoglalja, ezzel megbénítva a szolgáltatást más, legitim felhasználók elől. Ez a támadás a modell elérhetőségét (availability) veszélyezteti.

Defenzív promptolás

Olyan prompt-tervezési technikák összessége, amelyek célja az LLM-ek ellenállóbbá tétele a prompt injection támadásokkal szemben. Ennek során speciális formázást, szerep-előírást vagy utasítás-elválasztást használsz, hogy a modell egyértelműen meg tudja különböztetni az eredeti rendszerutasítást a potenciálisan kártékony felhasználói beviteltől. A defenzív promptolás az LLM biztonság egyik alapvető védelmi vonala.

Dezinformáció-generálás

Az a folyamat, amikor egy nyelvi modell szándékosan vagy véletlenül valótlan, félrevezető vagy teljesen hamis információkat állít elő. Az AI red teaming egyik fontos feladata feltárni, hogy a modellt rá lehet-e venni ilyen tartalmak létrehozására, és felmérni az ebből fakadó kockázatokat. A dezinformáció elleni védekezés kulcsfontosságú az AI etikus és biztonságos alkalmazásában.

Differenciális adatvédelem

Matematikai keretrendszer, amely lehetővé teszi adathalmazok elemzését úgy, hogy közben garantálja az egyének személyes adatainak védelmét. A technika lényege, hogy statisztikai zajt ad a lekérdezések eredményeihez, így szinte lehetetlenné válik megállapítani, hogy egy adott személy adatai szerepeltek-e az eredeti adathalmazban. Ezt a módszert az AI modellek tanítása során használod a tréningadatok kiszivárgásának megakadályozására.

Direkt prompt injection

Olyan támadási technika, amely során a támadó közvetlenül a felhasználói inputba illeszti be a kártékony utasításait. A cél az, hogy felülbíráld a modell eredeti rendszerutasításait (system prompt) és rávedd az LLM-et olyan feladatok végrehajtására, amelyeket a fejlesztői korlátozások tiltanának. Ez az egyik legalapvetőbb és leggyakoribb LLM sebezhetőség, amelyet a red teaming során tesztelsz.

Diszkriminatív viselkedés

Az a jelenség, amikor egy AI modell a tanítóadataiban meglévő társadalmi előítéletek miatt hátrányosan megkülönböztet bizonyos felhasználói csoportokat. Ez megnyilvánulhat például elfogult ajánlásokban, sértő tartalmak generálásában vagy egyenlőtlen bánásmódban. Az ilyen viselkedés felderítése és mérséklése az AI etika és biztonság központi feladata.

Dinamikus promptolás

Olyan fejlett promptolási módszer, ahol a modellnek adott utasítások (promptok) nem statikusak, hanem a kontextus, a párbeszéd előzményei vagy külső adatok alapján dinamikusan változnak. AI red teaming során ezt a technikát használhatod összetett, többlépéses támadások szimulálására, amelyekkel a modell kontextuskezelési képességeinek gyengeségeit keresed. A védelem oldalán pedig a kontextushoz igazodó, pontosabb és biztonságosabb válaszok elérésére szolgál.

Dokumentáció-alapú sebezhetőség-keresés

AI red teaming stratégia, amely során a támadó az AI modell vagy a rá épülő alkalmazás nyilvános dokumentációját (pl. API leírás, fejlesztői útmutatók) használja fel a potenciális gyenge pontok azonosítására. A dokumentáció felfedheti a rendszer belső működésének részleteit, a beépített korlátozásokat vagy a feldolgozási logikát, amelyek kihasználhatóak egy támadás során. Ezzel a módszerrel hatékonyan tárhatsz fel implementációs hibákat.

Döntési határok manipulálása

Az adverzális támadások (adversarial attacks) egyik alapelve, különösen a klasszifikációs modellek esetében. A támadás célja, hogy egy bemeneti adatot (pl. képet vagy szöveget) egy minimális, ember számára szinte észrevehetetlen módosítással úgy változtasson meg, hogy az átlépje a modell döntési határát, és a modell téves kategóriába sorolja. Ezzel tesztelheted a modell robusztusságát a kis mértékű bemeneti zavarokkal szemben.

Drift-felügyelet (Modell-drift)

Az a folyamat, amely során folyamatosan monitorozod az AI modell teljesítményének változását az idő múlásával. A modell-drift akkor következik be, amikor a valós világbeli adatok eloszlása megváltozik a tanítóadatokhoz képest, ami a modell pontosságának csökkenéséhez vagy váratlan viselkedéséhez vezethet. A biztonság szempontjából a drift-felügyelet kritikus, mert egy leromlott teljesítményű modell új sebezhetőségeket mutathat.

Duális felhasználás

Az a jelenség, amikor egy eredetileg jótékony célra fejlesztett AI technológiát (pl. szöveggenerálás, képanalízis) rosszindulatú, kártékony célokra is fel lehet használni. Ide tartozik például a deepfake-videók készítése, a kifinomult adathalász e-mailek generálása vagy a dezinformációs kampányok automatizálása. Az AI safety egyik fő kihívása a duális felhasználásból eredő kockázatok felmérése és csökkentése.

Deducibilis információk kinyerése

Olyan adatvédelmi támadás, amely során a modell kimeneteiből próbálsz meg következtetni a tanítóadatokban szereplő érzékeny információkra, még akkor is, ha azok nem jelennek meg szó szerint. A modell hajlamos lehet „emlékezni” a tanítás során látott egyedi adatmintákra, és ezeket közvetett módon kiszivárogtatni. AI red teaming során ilyen technikákkal tesztelheted a modell adatvédelmi garanciáit.

Dekódolási stratégiák kihasználása

Olyan fejlett támadási vektor, amely a nyelvi modell szöveggenerálási folyamatának legutolsó lépését, a dekódolást célozza. A dekódolási algoritmus (pl. greedy search, beam search, top-k sampling) paramétereinek manipulálásával vagy a logitok (a szavak valószínűségi eloszlásai) közvetlen befolyásolásával a támadó ráveheti a modellt tiltott vagy nemkívánatos szavak, kifejezések generálására. Ezzel megkerülhetők a tartalomszűrési mechanizmusok.

Dekompozíciós elemzés

Modell-értelmezhetőségi és biztonsági technika, amelynek során egy komplex AI rendszer viselkedését vagy döntési folyamatát kisebb, könnyebben érthető komponensekre bontod. Ezzel azonosíthatod, hogy a modell mely belső részei felelősek egy adott kimenetért, például egy elfogult vagy káros válaszért. Ez a módszer segít a sebezhetőségek és a nem kívánt viselkedés gyökérokainak feltárásában.

Destruktív kimenet provokálása

Az AI red teaming egyik fő célja, amely során aktívan próbálsz olyan inputokat (promptokat) létrehozni, amelyek a modellt káros, veszélyes vagy etikátlan tartalom generálására késztetik. Ide tartozik például az illegális tevékenységekre vonatkozó útmutatók, a gyűlöletbeszéd, a rosszindulatú kódok vagy az önkárosításra buzdító szövegek előállítása. Ezen tesztek segítségével mérik fel a modell biztonsági korlátainak hatékonyságát.

Detektálási mechanizmusok

Azok a szoftveres vagy algoritmikus rendszerek, amelyek célja az AI modellekkel szembeni támadások, a nem megfelelő használat vagy a káros tartalmak valós időben történő azonosítása. Ilyen lehet például egy prompt injection detektor, egy anomália-észlelő rendszer a felhasználói viselkedésben, vagy egy kimeneti szűrő, amely a generált szövegben keres tiltott mintákat. Ezek a mechanizmusok a reaktív védelem kulcsfontosságú elemei.

Ellenséges támadás (Adversarial Attack)

Olyan technika, amelynek során szándékosan manipuált bemeneti adatokat (pl. képeket, szövegeket) hozol létre egy mesterséges intelligencia modell megtévesztésére. A cél az, hogy a modell hibás döntést hozzon vagy rossz kimenetet generáljon, miközben a módosítás az emberi szem számára szinte észrevehetetlen. Ezzel a módszerrel tesztelheted a modell robusztusságát és sebezhetőségeit.

Elkerülési támadás (Evasion Attack)

Az ellenséges támadások egy specifikus típusa, amely a modell működése (inferencia) közben történik. A támadás során úgy módosítod a bemeneti adatot, hogy a modell azt helytelenül osztályozza, például egy spam e-mailt legitimnek ismerjen fel. Ez a leggyakoribb támadási forma a már telepített és működő AI rendszerek ellen.

Extrakciós támadás (Model Extraction)

Olyan rosszindulatú eljárás, amelynek célja a gépi tanulási modell belső működésének, architektúrájának vagy akár a teljes modellnek a lemásolása. A támadó ismételt lekérdezésekkel és a kapott válaszok elemzésével egy „klón” modellt hoz létre anélkül, hogy hozzáférne az eredeti tréning adatokhoz vagy kódhoz. Ezzel a technikával ellophatod egy cég szellemi tulajdonát.

Etikai irányelvek

Azok a szabályok és alapelvek, amelyek a mesterséges intelligencia felelősségteljes fejlesztését és alkalmazását hivatottak biztosítani. Ide tartozik a méltányosság, az átláthatóság, az elszámoltathatóság és az emberi jogok tiszteletben tartása. AI red teamerként az a feladatod, hogy felderítsd azokat a pontokat, ahol a rendszer megsértheti ezeket az elveket.

Előítéletek felerősítése (Bias Amplification)

Az a jelenség, amikor egy AI modell nemcsak reprodukálja a tréning adatokban meglévő társadalmi előítéleteket, hanem fel is erősíti azokat. Red teaming során szándékosan olyan helyzeteket szimulálsz, amelyekben a modell diszkriminatív vagy sztereotip válaszokat ad, ezzel feltárva a beépült torzításokat.

Érzékeny adatok kiszivárogtatása (Sensitive Data Leakage)

Az egyik legjelentősebb LLM biztonsági kockázat, amely során a modell a válaszaiban véletlenül vagy egy célzott támadás (pl. prompt injection) hatására személyes azonosításra alkalmas információkat (PII), üzleti titkokat vagy más bizalmas adatokat fed fel. A tesztelés során olyan promptokat hozol létre, amelyekkel megkísérled előidézni ezt a viselkedést.

Elszöktetési technika (Jailbreak)

Olyan speciálisan megalkotott prompt vagy prompt-sorozat, amelynek célja az LLM beépített biztonsági korlátozásainak és tartalmi szűrőinek megkerülése. A „jailbreak” lehetővé teszi, hogy rávedd a modellt olyan feladatok elvégzésére vagy olyan tartalmak generálására, amelyeket normál esetben megtagadna. Ez a prompt injection egyik legfejlettebb formája.

Exploit fejlesztés

AI kontextusban egy konkrét sebezhetőség (pl. egy prompt injection variáns vagy egy modellmérgezési technika) kihasználására szolgáló módszer vagy kód kidolgozása. AI red teamerként nemcsak feltárod a gyengeségeket, hanem működőképes „exploiteket” is létrehozol, hogy demonstráld a kockázat valódiságát.

Eredmény-manipuláció

A modell kimenetének szándékos befolyásolása rosszindulatú vagy megtévesztő célzattal. Ez történhet a bemeneti adatok finom módosításával (adversarial attack) vagy a modell belső állapotának megzavarásával. A cél az, hogy a rendszer látszólag helyesen működjön, de a valóságban a támadó által kívánt eredményt produkálja.

Eltérítés észlelése (Hijacking Detection)

Olyan védelmi mechanizmus, amelynek feladata felismerni, ha egy felhasználó vagy egy automatizált rendszer megpróbálja átvenni az irányítást az LLM viselkedése felett (pl. prompt injection segítségével). Az ilyen rendszerek figyelik a bemeneti promptok mintázatait és a modell válaszainak anomáliáit. Te ezeknek a védelmi rendszereknek a tesztelését és kijátszását végzed.

Elszámoltathatóság (Accountability)

Az az elv, amely szerint egyértelműen meg kell határozni, ki a felelős az AI rendszer által hozott döntésekért és azok következményeiért. Az AI biztonsági auditok és a red teaming egyik célja, hogy feltárja azokat a helyzeteket, ahol a felelősségi körök tisztázatlanok, és a modell „magára hagyva” okozhat kárt.

Empirikus biztonsági tesztelés

Gyakorlati, kísérleteken alapuló módszer egy AI rendszer sebezhetőségeinek felderítésére, szemben az elméleti elemzésekkel. Az AI red teaming tisztán empirikus tevékenység: valós támadási forgatókönyveket próbálsz ki a rendszeren, és a tapasztalatok alapján értékeled annak biztonsági szintjét.

Értékelési keretrendszer (Evaluation Framework)

Strukturált módszertan és metrikarendszer egy AI modell biztonságának, megbízhatóságának és etikai megfelelőségének mérésére. Egy ilyen keretrendszer határozza meg, hogy a red teaming során milyen típusú támadásokat kell végrehajtanod, és hogyan kell a talált sebezhetőségeket osztályozni súlyosság szerint.

Eredetkövetés (Provenance)

Az adatok és modellek teljes életciklusának nyomon követése, a keletkezéstől a felhasználásig. Az AI biztonság szempontjából kritikus fontosságú, mert segít azonosítani, hogy a tréning adatok megbízható forrásból származnak-e, és hogy a modellt nem manipulálták-e a fejlesztési folyamat során. A red teaming során tesztelheted, hogy a rendszerből kinyerhető-e információ az adatok eredetéről.

Fenyegetésmodell

Strukturált megközelítés, amelyben azonosítod a lehetséges fenyegetéseket, támadókat és sebezhetőségeket egy AI rendszeren belül. A fenyegetésmodellezés segít megérteni, hogy ki, miért és hogyan támadhatja meg a modellt, lehetővé téve a proaktív védekezési stratégiák kidolgozását. Célja, hogy a fejlesztési ciklus korai szakaszában feltárja a biztonsági réseket.

Felfedező tesztelés (Exploratory Testing)

Olyan red teaming technika, ahol a tesztelő minimális előzetes terv alapján, kreatívan és intuitívan próbálja meg feltárni a rendszer rejtett hibáit és nem várt viselkedéseit. Nem szkriptekre, hanem a tesztelő szakértelmére és kíváncsiságára épít, hogy olyan sebezhetőségeket találjon, amelyeket az automatizált tesztek elkerülnének. Különösen hatékony az LLM-ek logikai és kontextuális hiányosságainak felderítésére.

Félrevezető adathalmaz (Adversarial Dataset)

Olyan speciálisan létrehozott adathalmaz, amelyet arra terveztek, hogy szándékosan rontsa vagy manipulálja egy AI modell teljesítményét a tanítási vagy tesztelési fázisban. Ez lehet adat-mérgezési (data poisoning) támadás része, ahol a tanító adatokba csempészett rosszindulatú minták hátsó kapukat hoznak létre a modellben. A cél a modell megtévesztése vagy egy adott viselkedés kikényszerítése.

Fast Gradient Sign Method (FGSM)

Alapvető ellenséges támadás, amelynek célja ellenséges példák generálása a modell gradienseinek kihasználásával. A támadás egy lépésben módosítja a bemeneti adatokat a veszteségfüggvény gradiensének irányába. Ez a kicsi, gyakran észrevehetetlen zavar elég ahhoz, hogy a modell rosszul osztályozza a bemenetet, ami a modell alapvető sebezhetőségét bizonyítja.

Fuzzing (Fuzzy tesztelés)

Automatizált szoftver tesztelési technika, amely során nagy mennyiségű véletlenszerű, érvénytelen vagy váratlan adatot (úgynevezett „fuzz”) küldesz egy program bemenetére. Az AI és LLM-ek esetében a fuzzing a promptok vagy bemeneti adatok (pl. képek, szövegek) strukturális manipulálását jelenti a rendszer lefagyasztása, hibás működésre késztetése vagy rejtett sebezhetőségek (pl. puffer túlcsordulás) felfedése érdekében.

Finomhangolási támadás (Fine-tuning Attack)

Olyan támadási vektor, ahol a támadó egy már előtanított, megbízható modellt egy kis, saját maga által kontrollált adathalmazon finomhangol. Ezzel a módszerrel a támadó hátsó kapukat (backdoors) ültethet a modellbe, vagy ráveheti azt, hogy káros, elfogult vagy a támadó céljainak megfelelő kimeneteket generáljon. A támadás nehezen észlelhető, mert a modell általános teljesítménye alig változik.

Föderált tanulás biztonsága (Security of Federated Learning)

A föderált tanulás egy olyan gépi tanulási paradigma, ahol a modellt több, decentralizált eszközön (pl. telefonokon) tanítják anélkül, hogy a nyers adatok elhagynák az eszközt. Ennek biztonsága kulcsfontosságú, mivel a támadók manipulálhatják a modellfrissítéseket (gradients), hogy adatokat szivárogtassanak ki a többi résztvevőről, vagy szabotálják a központi modell teljesítményét.

Filter-kijátszás (Filter Evasion)

Azon technikák összefoglaló neve, amelyek célja a mesterséges intelligencia modellbe épített biztonsági és tartalmi szűrők megkerülése. Ide tartoznak a prompt injection különböző formái, a karakter- vagy szómanipulációk, és a rejtett kontextusok használata, amelyekkel a felhasználó ráveszi a modellt, hogy a tiltott témákról (pl. erőszak, illegális tevékenységek) is generáljon tartalmat.

Funkcionális határok tesztelése (Functional Boundary Testing)

Olyan red teaming módszer, amely során a rendszert a tervezett működési korlátainak szélén vagy azon túl teszteled. A cél annak kiderítése, hogyan viselkedik a modell extrém, váratlan vagy értelmetlen bemenetek esetén. Ez segíthet feltárni a logikai hibákat, a végtelen ciklusokat vagy azokat a helyzeteket, ahol a modell „összezavarodik” és sebezhetővé válik.

Felejtési képesség vizsgálata (Testing the Forgetting Ability)

A modell azon képességének tesztelése, hogy képes-e hatékonyan és véglegesen „elfelejteni” bizonyos adatokat vagy felhasználói információkat a GDPR „right to be forgotten” elvének megfelelően. A vizsgálat során ellenőrzöd, hogy az „elfelejtett” adatok nem szivárognak-e ki később a modell válaszaiban vagy viselkedésében. Ez a terület az adatvédelem és az AI biztonság metszetében helyezkedik el.

Feltételes prompt injekció (Conditional Prompt Injection)

A prompt injekció egy fejlett formája, ahol a rosszindulatú utasítás csak bizonyos feltételek teljesülése esetén aktiválódik. Például a prompt tartalmazhat egy rejtett parancsot, ami csak akkor hajtódik végre, ha a modell egy adott dokumentumot elemez vagy egy specifikus API-hívás eredményét kapja meg. Ez a technika sokkal nehezebben detektálható, mint az egyszerű, közvetlen injekciók.

Felhasználói szerepkörökkel való visszaélés (Abuse of User Roles)

Olyan támadási forma, ahol egy legitim, de alacsonyabb jogosultságú felhasználó megpróbálja a modellt rávenni olyan műveletek végrehajtására, amelyekhez magasabb szintű jogosultság (pl. adminisztrátori) szükséges. Ezt gyakran a modell természetes nyelvi megértésének manipulálásával érik el, megkerülve a formális hozzáférés-szabályozási (access control) rendszereket.

Felelős AI elvek (Responsible AI Principles)

Azoknak az etikai és biztonsági alapelveknek az összessége, amelyek mentén egy AI rendszert fejleszteni és üzemeltetni kell. Ide tartozik többek között az átláthatóság, a méltányosság (fairness), az elszámoltathatóság, a megbízhatóság és a biztonság. Ezen elvek betartása elengedhetetlen a felhasználók bizalmának elnyeréséhez és a lehetséges társadalmi károk minimalizálásához.

Gradiens-alapú támadások

Olyan adverzárius támadási technika, ahol a modell belső gradienseit (a súlyok változásának mértékét) használod fel egy bemenet minimális módosítására. Ezzel a módszerrel hatékonyan hozhatsz létre olyan adverzárius példákat, amelyek a modellt téves klasszifikációra kényszerítik. A működéséhez általában „white-box” (fehér dobozos) hozzáférés szükséges a modell belső állapotaihoz.

Guardrailek (Gondnoki korlátok)

Az LLM-ek kimenetének szabályozására szolgáló mechanizmusok és előre definiált szabályok összessége. Ezek a korlátok megakadályozzúk, hogy a modell káros, etikátlan, illegális vagy a témától teljesen eltérő tartalmat generáljon. A guardrailek beállítása kulcsfontosságú a felelős AI-használat szempontjából, mivel ezek jelentik az elsődleges védelmi vonalat a nem kívánt viselkedéssel szemben.

Generatív MI biztonsága

Az a szakterület, amely a generatív mesterséges intelligencia modellek (mint az LLM-ek) védelmével foglalkozik a teljes életciklusuk során. Ide tartozik a modellmérgezés, a prompt injection, az adatvédelmi szivárgások és a rosszindulatú felhasználás elleni védekezés. Célja, hogy biztosítsa a modellek megbízhatóságát, integritását és ellenálló képességét a különféle támadásokkal szemben.

Cél-eltérítés (Goal Hijacking)

A prompt injection egyik formája, ahol a támadó input segítségével ráveszed a modellt, hogy hagyja figyelmen kívül az eredeti, legitim utasítását, és helyette egy rejtett, rosszindulatú célt kövessen. Például egy összefoglalásra kért szövegbe rejtett utasítással arra kényszeríted a modellt, hogy inkább sértő tartalmat generáljon. Ezzel gyakorlatilag „eltéríted” a modell eredeti feladatát.

Gonosz szándékú generálás (Malicious Generation)

Az a folyamat, amikor egy generatív AI modellt szándékosan káros tartalmak létrehozására használsz. Ide tartozik például a deepfake videók készítése, meggyőző adathalász e-mailek írása, dezinformációs kampányokhoz szükséges szövegek generálása vagy rosszindulatú kódok íratása. Ez a modell képességeivel való visszaélés egyik leggyakoribb formája.

Szürkedobozos tesztelés (Grey-box Testing)

Olyan AI red teaming módszertan, ahol a tesztelő csapat részleges információkkal rendelkezik a vizsgált AI rendszerről. Ismerheted például a modell architektúráját vagy a betanítási adatok típusát, de nincs teljes hozzáférésed a forráskódhoz vagy a modell súlyaihoz. Ez a megközelítés a fekete dobozos (semmit sem tudsz) és a fehér dobozos (mindent tudsz) tesztelés között helyezkedik el.

Grounding (Adat-földelés)

Az a technika, amellyel egy LLM válaszait egy specifikus, megbízható és ellenőrzött tudásbázishoz vagy adathalmazhoz kötöd. A grounding segít csökkenteni a modell „hallucinációit” (valótlan állítások generálását) és növeli a válaszok tényszerűségét. Biztonsági szempontból ez egy fontos AI safety mechanizmus, mert megakadályozza, hogy a modell ellenőrizetlen vagy hamis információkat terjesszen.

Generalizációs hiba

A modell azon hiányossága, hogy nem képes helyesen teljesíteni olyan új, korábban nem látott adatokon, amelyek eltérnek a betanítási adathalmaz mintáitól. Az adverzárius támadások gyakran ezt a gyengeséget használják ki, mivel az apró, emberi szem számára észrevehetetlen módosítások a bemeneten pont a modell generalizációs képességének határait feszegetik. A robusztus modelleknek alacsony generalizációs hibával kell rendelkezniük.

Glitch tokenek

Olyan szándékosan hibás vagy értelmetlennek tűnő karaktersorozatok, amelyeket a promptba illesztve megzavarhatod az LLM belső működését és kikerülheted a biztonsági szűrőit. Ezek a tokenek kihasználják a modell tokenizációs folyamatának sajátosságait, és „jailbreak”-ként működhetnek. Egy ilyen támadással ráveheted a modellt, hogy a tiltott irányelvek ellenére is válaszoljon a kérésedre.

Gradiens-elfedés (Gradient Masking)

Védelmi technika, amelynek célja a gradiens-alapú támadások megnehezítése. A módszer elrejti vagy torzítja a modell gradienseit, így a támadó nem tudja azokat hatékonyan felhasználni adverzárius példák létrehozására. Bár növeli a modell védettségét az ilyen specifikus támadásokkal szemben, gyakran csak „hamis biztonságérzetet” ad, mert más típusú támadásokkal szemben hatástalan maradhat.

Globális MI-kormányzás (Global AI Governance)

Nemzetközi szintű szabályozási keretrendszerek, etikai normák és technikai sztenderdek kialakítására irányuló törekvés. Célja, hogy biztosítsa a mesterséges intelligencia felelős, biztonságos és emberközpontú fejlesztését és alkalmazását világszerte. Ez a terület foglalkozik a határokon átnyúló AI-biztonsági kockázatok kezelésével és a nemzetközi együttműködés elősegítésével.

Gondoskodási kötelezettség (Duty of Care)

Etikai és jogi elv, amely szerint az AI-rendszerek fejlesztőinek és üzemeltetőinek felelőssége van abban, hogy előre felmérjék és minimalizálják a technológiájuk által okozható potenciális károkat. Ez magában foglalja a biztonsági sebezhetőségek proaktív keresését, a méltányosság biztosítását és a felhasználók védelmét a visszaélésekkel szemben. Az AI biztonság területén ez az elv a proaktív kockázatkezelést hangsúlyozza.

Hallucináció

Ez a jelenség akkor fordul elő, amikor egy nyelvi modell magabiztosan állít valótlan, pontatlan vagy a kontextusból teljesen kilógó információkat. A modell lényegében „kitalál” tényeket, mivel nem rendelkezik valós tudással, csupán a tanítási adatok statisztikai mintázatai alapján generál szöveget. A red teaming során gyakran teszteled, hogy milyen helyzetekben és milyen témákban hajlamos a modell hallucinációra.

Hátulról jövő támadás (Backdoor Attack)

Olyan támadási forma, ahol a támadó egy rejtett „hátsó kaput” helyez el a modellben, jellemzően már a tanítási fázisban, manipulált adatokkal. Ez a hátsó kapu egy speciális trigger (pl. egy ritka szó vagy kifejezés) hatására aktiválódik, és a modellt egy előre meghatározott, rosszindulatú viselkedésre kényszeríti. A védekezés ellene a tanítási adatok és a modell integritásának szigorú ellenőrzését igényli.

Hálózati biztonság AI rendszereknél

Az AI rendszereket támogató hálózati infrastruktúra védelmére összpontosító szakterület. Ide tartozik az API végpontok védelme, a jogosulatlan hozzáférések megakadályozása, valamint a szolgáltatásmegtagadási (DoS) támadások elleni védekezés. Ha egy támadó a hálózaton keresztül fér a modellhez, ellophatja azt, vagy manipulálhatja a működését.

Hamisított adatokkal való támadásn Adat mérgezés (Data Poisoning)

Olyan rosszindulatú technika, amely során a támadó szándékosan manipulatív, hibás vagy félrevezető adatokat juttat be a modell tanítási adathalmazába. Ennek célja, hogy a modell megtanuljon bizonyos helytelen mintázatokat, sebezhetőségeket hozzon létre (pl. hátsó kapukat), vagy elfogulttá váljon. Ez az egyik legnehezebben észlelhető támadási forma, mivel a tanítási folyamat előtt kellene kiszűrni a káros adatokat.

Hatásvizsgálat (Impact Assessment)

Az AI etika és biztonság területén alkalmazott folyamat, amely során felméred egy AI rendszer potenciális társadalmi, etikai és biztonsági hatásait. A vizsgálat kiterjedhet az elfogultságra, a magánszféra megsértésére, a rosszindulatú felhasználás lehetőségeire és a társadalmi csoportokra gyakorolt következményekre. Célja a kockázatok azonosítása és enyhítése még a rendszer bevezetése előtt.

Helytelen vagy káros tartalom generálása

Az LLM-ek egyik leggyakoribb biztonsági kockázata, amikor a modell illegális, etikátlan, erőszakos, diszkriminatív vagy más módon káros tartalmat hoz létre a felhasználói input hatására. A red teaming egyik fő feladata, hogy olyan promt-okat és forgatókönyveket dolgozz ki, amelyekkel a modellt ilyen tartalom generálására veszed rá. A cél ezen sebezhetőségek feltárása és a védelmi mechanizmusok (guardrails) tesztelése.

Heurisztikus elemzés

Szabályalapú vagy tapasztalati alapú módszer, amelyet a rosszindulatú promt-ok vagy káros kimenetek észlelésére használsz. Ahelyett, hogy bonyolult modelleket alkalmaznál, a heurisztikus elemzés előre definiált mintákat, kulcsszavakat vagy szabályokat keres a szövegben. Például egy heurisztikus szűrő blokkolhat minden olyan kérést, amelyben illegális tevékenységekre utaló szavak szerepelnek.

Hiba-injektálás (Fault Injection)

Olyan tesztelési technika, amely során szándékosan hibákat „injektálsz” a rendszerbe, hogy megvizsgáld annak viselkedését és ellenálló képességét stresszhelyzetben. Az LLM-ek esetében ez jelenthet szándékosan torzított vagy zajos bemeneti adatokat, a modell belső állapotának megzavarását, vagy a környezeti paraméterek manipulálását. A cél annak felderítése, hogyan reagál a modell a váratlan és hibás körülményekre.

Hibrid Red Teaming

Olyan red teaming megközelítés, amely ötvözi az automatizált eszközök és a humán szakértők kreativitásának erejét. Az automatizált szkennerek nagy mennyiségű, ismert sebezhetőséget képesek gyorsan felderíteni, míg az emberi red teamerek új, komplex és kontextusfüggő támadási vektorokat találnak, amelyeket a gépek nem vennének észre. Ez a kombinált módszer nyújtja a legalaposabb biztonsági értékelést.

Hipotézis alapú tesztelés

A red teaming során alkalmazott strukturált megközelítés, ahol konkrét hipotéziseket állítasz fel a rendszer sebezhetőségeiről, majd célzottan teszteled azokat. Például egy hipotézis lehet: „A modell kijátszható, ha a káros kérést egy szerepjátékos kontextusba ágyazom.” Ez a módszer sokkal hatékonyabb, mint a véletlenszerű próbálkozás, mivel a tesztelést a lehetséges gyengeségekre fókuszálja.

Hozzáférési jogosultságok kijátszása

Olyan támadási típus, amelynek célja, hogy a támadó megkerülje a modell vagy a köré épített rendszer hozzáférés-szabályozási mechanizmusait. Ez magában foglalhatja például egy prémium funkció ingyenes használatát, adminisztrátori parancsok kiadását, vagy olyan adatokhoz való hozzáférést, amelyekhez a felhasználónak elvileg nem lenne joga. A red teaming során gyakran teszteled, hogy a modell rávehető-e belső funkciók vagy API-hívások jogosulatlan végrehajtására.

Humán visszacsatolás (Human Feedback)

Az a folyamat, amely során emberi értékelők minősítik a modell által generált válaszokat, például pontosság, segítőkészség vagy biztonságosság szempontjából. Ezt a visszacsatolást használják fel a modell finomhangolására és a biztonsági korlátok megerősítésére (pl. RLHF – Reinforcement Learning from Human Feedback). Az AI biztonság szempontjából kulcsfontosságú, hogy a modell megtanulja, mi számít kívánatos és nem kívánatos viselkedésnek.

Injekciós támadás

Az injekciós támadás (injection attack) az egyik leggyakoribb sebezhetőség az LLM-ek esetében. Ennek során a támadó olyan speciálisan kialakított bemenetet (promptot) ad a modellnek, amely felülírja vagy módosítja az eredeti utasításokat. A cél az, hogy a modellt rávedd olyan feladatok végrehajtására, amelyeket a fejlesztői korlátozások miatt nem tehetne meg.

Indirekt prompt injekció

Ez az injekciós támadások egy fejlettebb formája, ahol a kártékony utasítás nem közvetlenül tőled, hanem egy külső, a modell által feldolgozott adatforrásból származik. Például a modell egy weboldal tartalmát összegzi, és a támadó elrejti a kártékony promptot a weboldal szövegében. Ez a módszer különösen veszélyes, mert nehezen szűrhető és automatizált rendszerekben is működhet.

Instrukció-eltérítés

Az instrukció-eltérítés (instruction hijacking) egyfajta prompt injekció, ahol a támadó célja, hogy teljesen átvegye az irányítást a modell viselkedése felett. A kártékony prompt arra utasítja a modellt, hogy hagyja figyelmen kívül minden korábbi és későbbi utasítását, és kizárólag a támadó parancsait kövesse. Ezzel a modell „eltéríthető” az eredeti feladatától.

Információszivárgás

Az információszivárgás (information disclosure) olyan sebezhetőség, amelynek során a modell érzékeny adatokat fed fel. Ezek az adatok származhatnak a tanítóadatbázisból, a rendszer belső működéséből (pl. system prompt), vagy más felhasználók beszélgetéseiből. A red teaming során az ilyen szivárgások felderítése kulcsfontosságú biztonsági feladat.

Integritásvédelem

Az integritásvédelem az AI biztonság egy alapvető pillére, amely biztosítja, hogy a modell, annak kimenetei és a tanítóadatok ne legyenek illetéktelenül módosítva. Magában foglalja a modell súlyainak védelmét a manipulációtól (model poisoning) és a kimenetek megbízhatóságának garantálását. A cél, hogy a rendszer konzisztensen és a szándékoknak megfelelően működjön.

Inferenciatámadás

Az inferenciatámadás (inference attack) során a támadó a modell kimeneteinek elemzésével próbál visszakövetkeztetni a tanítóadatbázisban szereplő érzékeny információkra. Ilyen lehet például a tagsági inferenciatámadás (membership inference), amellyel megállapítható, hogy egy adott adatpont szerepelt-e a tanítóadatok között. Ez komoly adatvédelmi kockázatot jelent.

Interpretabilitás

Az interpretabilitás (értelmezhetőség) az a képesség, hogy megértsük és megmagyarázzuk, egy AI modell miért hozott egy adott döntést vagy generált egy bizonyos kimenetet. A biztonság szempontjából elengedhetetlen, mivel segít azonosítani a modell rejtett sebezhetőségeit, előítéleteit vagy a támadásokra adott abnormális reakcióit. Minél jobban érted a modell működését, annál hatékonyabban tudod védeni.

Implicit előítélet

Az implicit előítélet (implicit bias) a modell tanítóadataiban rejlő, nem szándékolt torzításokra utal, amelyeket a modell elsajátít és reprodukál. Ezek káros sztereotípiákhoz, diszkriminatív viselkedéshez vagy méltánytalan eredményekhez vezethetnek. Az AI etika és a red teaming egyik fontos feladata ezen előítéletek felderítése és mérséklése.

Input szanitizálás

Az input szanitizálás (input sanitization) egy védekezési technika, amely során a modellnek adott bemenetet megtisztítják a potenciálisan kártékony elemektől. Ez magában foglalhatja a speciális karakterek, kódrészletek vagy ismert támadási mintázatok eltávolítását a promptból. Célja, hogy megnehezítse az injekciós támadások végrehajtását.

Identitás-megszemélyesítés

Az identitás-megszemélyesítés (identity impersonation) során a támadó arra kényszeríti az LLM-et, hogy egy bizonyos személy, szerepkör vagy entitás (pl. egy cég ügyfélszolgálata) bőrébe bújjon. Ezt rosszindulatú célokra, például adathalászatra, megtévesztésre vagy dezinformáció terjesztésére használhatod fel. A red teaming feladata, hogy tesztelje, a modell mennyire hajlamos ilyen manipulációra.

In-kontextusos tanulás kihasználása

Az LLM-ek képesek a promptban megadott példákból „tanulni” az adott beszélgetés erejéig (in-context learning). Ennek kihasználása során a támadó olyan példákat ad a modellnek, amelyek egy rejtett, kártékony mintát tanítanak meg neki. A modell ezt a mintát követve fog válaszolni a későbbi kérdésekre, ezzel kikerülve a beépített biztonsági korlátokat.

Iteratív red teaming

Az iteratív red teaming egy ciklikus folyamat, ahol a támadási kísérletek és a védekezési mechanizmusok fejlesztése folyamatosan váltja egymást. A red team talál egy sebezhetőséget, a fejlesztők javítják, majd a red team újra teszteli a javítást és újabb támadási vektorokat keres. Ez a folyamatos visszacsatolás biztosítja a modell biztonságának fokozatos erősödését.

Infrastrukturális sebezhetőségek

Ez a kategória nem közvetlenül a modellt, hanem az azt körülvevő informatikai rendszert érintő gyengeségeket jelöli. Ide tartozhatnak a nem megfelelően védett API végpontok, a gyenge hozzáférés-kezelés, vagy a naplózás hiányosságai. Egy támadó ezeket kihasználva hozzáférhet a modellhez, adatokhoz vagy akár az egész rendszerhez.

Illúziókeltés

Az illúziókeltés (inducing hallucinations) egy red teaming technika, amelynek célja, hogy a modellt szándékosan rávedd magabiztosan hangzó, de valótlan információk (hallucinációk) generálására. Ezzel tesztelheted a modell tényszerűségét és megbízhatóságát. A célzott illúziókeltés különösen veszélyes lehet, ha dezinformációs kampányokhoz használják.

Jailbreak támadás

Olyan prompt injection technika, amellyel megkerülöd a nyelvi modell beépített biztonsági korlátozásait és etikai irányelveit. A célod az, hogy a modell olyan választ generáljon, amelyet a normál működése során megtagadna, például káros tartalmat hozzon létre vagy bizalmas információt fedjen fel. Ezzel a módszerrel feltárhatod a modell alapvető sebezhetőségeit.

Jellemző-manipuláció (Feature Manipulation)

Adverzárius támadási forma, amely során a bemeneti adatok (pl. képpontok, szövegrészletek) minimális, ember számára alig észrevehető módosításával éred el, hogy a modell hibás döntést hozzon. A red teaming során ezt arra használod, hogy felmérd a modell robusztusságát az ilyen finom, de rosszindulatú beavatkozásokkal szemben. Ez a technika különösen hatékony képosztályozó és egyéb perceptuális modellek ellen.

Jel-alapú anomália detekció

Olyan biztonsági mechanizmus, amely a modell bemeneti és kimeneti adatfolyamában keres szokatlan mintázatokat vagy „jeleket”, amelyek rosszindulatú tevékenységre utalhatnak. Ilyen jel lehet egy szokatlanul komplex prompt, egy ismert támadási minta vagy a modell válaszainak hirtelen megváltozása. Ezzel a módszerrel valós időben azonosíthatod a potenciális prompt injection vagy adatlopási kísérleteket.

Jogosultság-eszkalációs kísérlet

Olyan támadási vektor, amelynek során egy alacsonyabb jogosultságú felhasználói szerepkörből próbálsz magasabb szintű hozzáférést szerezni az AI rendszeren belül. A célod lehet például a modell konfigurációjának módosítása, a védett adatkészletek elérése vagy a rendszer naplóinak manipulálása. A red teaming során ilyen kísérletekkel teszteled az AI-alkalmazás hozzáférés-kezelési rendszerének (IAM) sebezhetőségeit.

Jóindulatú prompt tesztelés (Benign Prompting)

A red teaming folyamatának egyik lépése, amely során szándékosan ártalmatlan, a felhasználási feltételeknek megfelelő kérésekkel bombázod a modellt. Ennek célja a modell alapvető teljesítményének (baseline) mérése és annak megértése, hogyan viselkedik normál terhelés alatt. Az itt kapott eredményekhez hasonlítod később a rosszindulatú tesztek során tapasztalt viselkedést.

Játékelméleti Red Teaming

Fejlett red teaming stratégia, amely a játékelméletet alkalmazza a támadók és a védők közötti interakciók modellezésére. Ebben a keretrendszerben elemzed a lehetséges támadási stratégiákat és a rájuk adható optimális védelmi válaszokat. Segítségével előre jelezheted a legvalószínűbb támadási útvonalakat és proaktívan erősítheted meg a rendszer leggyengébb pontjait.

Jogi és etikai megfelelőség vizsgálata

Az AI biztonsági audit egyik kulcsfontosságú eleme, amely során azt elemzed, hogy a modell működése és válaszai megfelelnek-e a vonatkozó jogszabályoknak (pl. GDPR) és az előre definiált etikai irányelveknek. Ide tartozik a torzítások (bias), a diszkriminatív viselkedés és a személyes adatok illetéktelen kezelésének felderítése. A célod a jogi kockázatok minimalizálása és a felelős AI működés biztosítása.

Jóslat-eltérítési támadás (Prediction Evasion Attack)

Adverzárius támadás, ahol a bemeneti adatokat úgy módosítod, hogy a modell egy általad előre meghatározott, hibás kimenetet adjon. Például egy spam szűrő esetében egy rosszindulatú emailt úgy írsz át, hogy a modell azt „biztonságos” kategóriába sorolja. A red teaming során ezzel a módszerrel teszteled a modell képességét, hogy ellenálljon a szándékos megtévesztésnek.

Jutalom-feltörés (Reward Hacking)

A megerősítéses tanulással (Reinforcement Learning) trénelt modellekre jellemző sebezhetőség, ahol a modell megtalálja a jutalmazási függvény egy nem szándékolt kiskapuját a maximális jutalom eléréséhez. Ez gyakran a feladat eredeti céljával ellentétes vagy káros viselkedéshez vezet. A biztonsági tesztelés során olyan forgatókönyveket hozol létre, amelyekkel feltárhatod és javíthatod ezeket a hibásan értelmezett ösztönzőket.

Jelentéskészítési protokoll

A red teaming művelet lezárásaként létrehozott dokumentációs folyamat, amely részletesen rögzíti a talált sebezhetőségeket, a sikeres támadási vektorokat és a javasolt javító intézkedéseket. A protokollnak egyértelműen és reprodukálhatóan kell leírnia a problémákat, hogy a fejlesztői csapat hatékonyan tudja orvosolni azokat. A jó jelentés a sikeres red teaming elengedhetetlen része.

Kihasználás (Exploitation)

Ez a folyamat, amelynek során egy azonosított sebezhetőséget aktívan felhasználsz a rendszer nem rendeltetésszerű működésre bírására. Az AI red teaming során a kihasználás célja lehet például bizalmas adatok megszerzése, a modell korlátainak megkerülése vagy káros tartalom generáltatása. A sikeres kihasználás bizonyítja a sérülékenység valós kockázatát.

Kikerülési támadás (Evasion Attack)

Olyan adverzárius támadási technika, ahol a bemeneti adatokat (pl. képet vagy szöveget) minimálisan, az ember számára szinte észrevehetetlenül módosítod. A cél az, hogy a modell téves következtetésre jusson vagy helytelenül klasszifkálja a bemenetet, miközben az emberi szemlélő számára az eredeti jelentés változatlan marad. Ezzel a módszerrel például kikerülheted a tartalommoderációs szűrőket.

Kimeneti szűrés (Output Filtering)

Védelmi mechanizmus, amely a nyelvi modell által generált választ ellenőrzi és szűri, mielőtt az a felhasználóhoz eljutna. Ez a szűrő detektálhat és blokkolhat káros, etikátlan, illegális vagy személyes adatokat tartalmazó tartalmakat. A red teaming gyakori célpontja ezen szűrők hatékonyságának tesztelése és kijátszása.

Kimeneti mérgezés (Output Poisoning)

Olyan támadási forma, ahol a cél az, hogy a modell kimenete egy specifikus trigger vagy kulcsszó hatására előre meghatározott, gyakran káros vagy manipulatív válasszal szennyeződjön. Ezt a tanító adathalmaz manipulálásával vagy a finomhangolási folyamatba való beavatkozással érheted el. A cél, hogy a modell egy ártatlannak tűnő kérdésre is veszélyes választ adjon.

Kontextus manipuláció (Context Manipulation)

Olyan prompt injection technika, ahol a modellnek adott kontextust (pl. a beszélgetés előzményeit vagy a rendelkezésére bocsátott dokumentumokat) úgy alakítod, hogy az a modellt egy nem kívánt viselkedésre vagy válaszadásra késztesse. Például hamis információkat helyezel el a kontextusban, hogy a modell azokat tényként kezelje. Ezzel a modell viselkedését anélkül irányíthatod, hogy direkt utasításokat adnál neki.

Káros tartalom generálása (Harmful Content Generation)

Az AI biztonság egyik központi problémája, amikor a modellt arra veszed rá, hogy erőszakos, diszkriminatív, illegális tevékenységekre buzdító vagy más módon veszélyes szövegeket hozzon létre. A red teaming feladata, hogy feltárja azokat a promptokat és módszereket, amelyekkel a modell biztonsági korlátait megkerülve ilyen tartalmat lehet generáltatni. A cél ezen képességek azonosítása és megszüntetése.

Korlátok kijátszása (Jailbreaking)

Az a folyamat, amely során speciálisan megalkotott promptokkal vagy technikákkal megkerülöd a nyelvi modell beépített biztonsági és etikai korlátozásait (guardrails). A cél, hogy rávedd a modellt olyan feladatok elvégzésére vagy válaszok generálására, amelyeket normál esetben megtagadna. Ilyen lehet például a veszélyes instrukciók adása vagy tiltott témákról való beszélgetés.

Kritikus sérülékenység (Critical Vulnerability)

Olyan súlyos biztonsági rés egy AI modellben vagy rendszerben, amelynek kihasználása jelentős károkat okozhat. Ide tartozhat például a távoli kódfuttatás lehetősége, a teljes adatbázishoz való hozzáférés, vagy a modell működésének teljes átvétele. Az ilyen sérülékenységek azonosítása a red teaming legmagasabb prioritású feladata.

Kódinjektálás (Code Injection)

A prompt injection egy speciális formája, ahol a támadó olyan inputot ad a modellnek, amely egy programozási nyelvben (pl. Python, SQL) íródott kódrészletet tartalmaz. Ha a modell kimenete egy kódot futtató környezetbe kerül (pl. egy plugin vagy egy belső API), a modell által generált vagy továbbított kártékony kód lefuthat. Ez rendkívül súlyos biztonsági kockázatot jelent.

Kettős felhasználás (Dual-Use)

Etikai és biztonsági fogalom, amely arra utal, hogy egy AI képesség vagy modell egyaránt használható jótékony és kártékony célokra is. Például egy rendkívül meggyőző szövegalkotó modellt használhatsz marketingre, de félrevezető propaganda vagy kifinomult adathalász támadások létrehozására is. A red teaming feladata felmérni a kártékony felhasználási lehetőségeket is.

Kulturális elfogultság (Cultural Bias)

Az AI etika egyik fontos területe, amely arra a jelenségre utal, amikor a modell a tanítóadataiban jelen lévő kulturális sztereotípiákat és előítéleteket tükrözi, illetve felerősíti. Ez oda vezethet, hogy a modell bizonyos kultúrákat vagy társadalmi csoportokat negatívan, pontatlanul vagy sértő módon ábrázol. A tesztelés során fel kell tárnod ezeket az elfogultságokat.

Kreatív red teaming (Creative Red Teaming)

Olyan tesztelési megközelítés, amely a sablonos, jól ismert támadási mintákon túlmutatva új, váratlan és kreatív módszerekkel próbálja megtörni a modellt. Ez magában foglalhat szerepjátékokat, abszurd forgatókönyveket vagy a modell logikájának szokatlan módokon történő kihasználását. A cél olyan rejtett sebezhetőségek megtalálása, amelyeket a standard tesztek nem fednének fel.

Kombinált támadás (Composite Attack)

Olyan kifinomult támadási stratégia, amely során több különböző sebezhetőséget vagy támadási vektort láncolsz össze egy összetettebb cél elérése érdekében. Például egy prompt injection támadással megszerzel egy belső információt, amit aztán egy social engineering támadásban használsz fel a modell egy másik funkciójának manipulálására. Ezek a támadások nehezebben detektálhatók, mint az egyedi, izolált próbálkozások.

Kontrollmechanizmusok (Control Mechanisms)

Azok a beépített szoftveres vagy eljárásbeli szabályok és korlátok, amelyek az AI modell viselkedését hivatottak a biztonságos és etikus keretek között tartani. Ide tartoznak a bemeneti és kimeneti szűrők, a témakorlátozások, valamint az ismétlődő vagy veszélyes kéréseket blokkoló rendszerek. A red teaming ezeknek a mechanizmusoknak a hatékonyságát és megkerülhetőségét vizsgálja.

Képesség-korlátozás (Capability Bounding)

Az AI biztonság (AI Safety) egyik alapelve, amely szerint egy AI rendszert szándékosan úgy kell tervezni, hogy annak képességei ne haladják meg a biztonságosan kezelhető szintet. Ez azt jelenti, hogy a modellnek nem adsz olyan képességeket (pl. autonóm internethasználat, fájlrendszer-módosítás), amelyek súlyos, előre nem látható kockázatokat hordoznának. A cél a potenciális károk proaktív minimalizálása.

Kockázatelemzés (Risk Analysis)

Strukturált folyamat, amely során azonosítod, elemzed és értékeled az AI rendszerrel kapcsolatos potenciális fenyegetéseket és sebezhetőségeket. A kockázatelemzés során felméred egy-egy támadási típus (pl. adatlopás, modell-manipuláció) bekövetkezésének valószínűségét és potenciális hatását. Ez segít a védelmi erőfeszítések priorizálásában és a megfelelő biztonsági intézkedések kiválasztásában.

Láncolt parancsok

Olyan technika, ahol több, egymásra épülő promptot használsz a komplexebb feladat végrehajtására vagy a modell viselkedésének finomhangolására. A red teaming során ezt arra használhatod, hogy a modellt fokozatosan sebezhető állapotba vezesd, vagy olyan információkat csalj ki belőle, amelyeket egyetlen prompttal nem adna ki. Ez a módszer hatékonyan tárja fel a kontextuskezelési hibákat.

Latens tér manipuláció

Olyan adverzárius támadási technika, amely a modell belső, rejtett reprezentációs terét (latens terét) célozza. Ahelyett, hogy közvetlenül a bemeneti adatokat módosítanád, a támadás a modell belső állapotát változtatja meg, hogy hibás vagy rosszindulatú kimenetet generáljon. Ez a white-box módszer rendkívül hatékony lehet, de mélyebb ismereteket igényel a modell architektúrájáról.

Láthatatlan perturbáció

Az adverzárius támadások egyik kulcsfogalma, ahol a bemeneti adathoz (pl. képhez vagy szöveghez) olyan minimális, emberi szem számára észrevehetetlen zajt adsz hozzá, amely a modellt drasztikusan eltérő, hibás következtetésre készteti. A cél az, hogy a támadás rejtve maradjon a felhasználó elől, miközben a rendszer integritását kompromittálja. Ez a technika rávilágít a modellek robusztusságának hiányosságaira.

Lekérdezés-alapú támadás

Olyan black-box támadási stratégia, ahol nincs hozzáférésed a modell belső paramétereihez, csak lekérdezéseket intézhetsz hozzá és figyelheted a válaszait. A modell viselkedésének elemzésével, a bemenetek és kimenetek közötti összefüggések feltérképezésével próbálod meg a sebezhetőségeket azonosítani és kihasználni. Ez a módszer a valós idejű, API-n keresztül elérhető modellek tesztelésének gyakori formája.

Leleplező prompt

Olyan speciálisan megalkotott prompt, amelynek célja, hogy a nyelvi modellt rávegye bizalmas információk felfedésére. Ilyen lehet például a rendszerszintű utasítás (system prompt), a betanítási adatok egy részlete vagy a modell működésével kapcsolatos belső technikai információ. Ez a prompt injection egyik gyakori formája, amely a modell túlzott „segítőkészségét” használja ki.

Limitációk feltárása

Az AI red teaming egyik alapvető célkitűzése, amely során szisztematikusan teszteled a modell képességeinek határait. Célod, hogy azonosítsd azokat a területeket és feladattípusokat, ahol a modell megbízhatatlan, pontatlan, etikátlan vagy potenciálisan káros válaszokat ad. Ezen limitációk ismerete elengedhetetlen a biztonságos alkalmazásfejlesztéshez és a kockázatok csökkentéséhez.

Logikai sebezhetőség

Olyan hiba a modell gondolkodási folyamatában vagy a mögöttes rendszer logikájában, amely nem a hagyományos szoftverhibákból, hanem a modell érvelési képességének hiányosságaiból ered. Ilyen lehet, ha a modell nem képes következetes maradni, ellentmondásokba keveredik, vagy egyszerű logikai feladványokat hibáz el. Ezek a hibák kihasználhatók rosszindulatú kimenetek generálására.

Logikai következetlenség kihasználása

Olyan támadási vektor, ahol szándékosan olyan helyzeteket teremtesz, amelyekben a modell ellentmondásos vagy inkonzisztens válaszokat ad. Ezzel demonstrálhatod a modell megbízhatatlanságát, és olyan helyzetekbe kényszerítheted, ahol a belső szabályrendszere felülíródik. Ez a technika hatékonyan használható a biztonsági korlátozások megkerülésére.

Lefutási időn alapuló támadás

Olyan oldalcsatornás támadás, ahol a modell válaszidejének mérésével próbálsz következtetni a belső működésére vagy a feldolgozott adatokra. Például, ha bizonyos típusú bemenetekre a modell következetesen lassabban válaszol, az információt szivárogtathat a végrehajtott számítások komplexitásáról. Ez a technika különösen releváns a hosztolt, API-n keresztül elért modellek esetében.

Licenc-alapú visszaélés

Olyan biztonsági és jogi kockázat, amely abból fakad, hogy a modellt vagy annak kimenetét a licencfeltételekkel ellentétes módon használod fel. Ide tartozhat például a betanítási adatok jogosulatlan felhasználása, a modell klónozása vagy olyan alkalmazások létrehozása, amelyeket a licenc kifejezetten tilt. A red teaming során az ilyen típusú visszaélések felderítése is fontos feladat.

Logelemzés anomáliadetekcióhoz

Olyan védekező biztonsági eljárás, amely során a modellel folytatott interakciók naplófájljait (logokat) elemzed szokatlan mintázatok után kutatva. Ilyen anomália lehet nagyszámú sikertelen jailbreak kísérlet, adatlopási próbálkozás vagy szokatlan lekérdezési sorozat. Ez segít azonosítani a folyamatban lévő támadásokat és proaktívan reagálni a biztonsági incidensekre.

Lokalizált adverzárius példa

Olyan adverzárius támadás, ahol a bemeneti adatoknak csak egy kis, jól körülhatárolt részét módosítod a modell megtévesztése érdekében. Például egy képen csak néhány pixel megváltoztatása, vagy egy szövegben egyetlen szó kicserélése. Ez a módszer nehezebben detektálható, mint a teljes bemenetet érintő, globális perturbációk.

Lehallgatási támadás

A felhasználó és az LLM közötti kommunikációs csatorna lehallgatását jelenti. A támadó célja, hogy megszerezze a promptokat és a modell által generált válaszokat, amelyek bizalmas adatokat, üzleti titkokat vagy személyes információkat tartalmazhatnak. A titkosítatlan vagy gyengén biztosított kapcsolatok (pl. nem megfelelő TLS konfiguráció) különösen sebezhetőek az ilyen típusú támadásokkal szemben.

Látszólagos biztonság

Az a jelenség, amikor egy AI rendszer biztonságosnak tűnik a felszínen, de valójában komoly, rejtett sebezhetőségekkel rendelkezik. Ez gyakran abból adódik, hogy a fejlesztők csak az ismert támadási típusokra készülnek fel, de nem végeznek mélyreható red teaming vizsgálatokat. A te feladatod red teamerként, hogy áttörd ezt a látszatot és feltárd a valós kockázatokat.

Modellbiztonság

A modellbiztonság az a szakterület, amely a mesterséges intelligencia modellek védelmével foglalkozik a különböző fenyegetésekkel szemben. Célod, hogy megvédd a modellt az olyan támadásoktól, mint a modellmérgezés, a kikerülő támadások vagy a modell-lopás. Ez magában foglalja a sebezhetőségek azonosítását és a védelmi mechanizmusok implementálását a modell teljes életciklusa során.

Modellmérgezés (Model Poisoning)

Olyan támadási forma, amely során a támadó szándékosan manipullált vagy káros adatokat juttat a modell tanítási adathalmazába. Ennek célja, hogy a modell viselkedését szabotálja, hátsó kapukat (backdoor) hozzon létre, vagy specifikus bemenetekre hibás kimenetet adjon. A modellmérgezés alááshatja a rendszer megbízhatóságát és integritását.

Modell-lopás (Model Stealing)

Az a folyamat, amikor egy támadó engedély nélkül lemásolja vagy rekonstruálja egy védett mesterséges intelligencia modellt. Ezt jellemzően úgy éred el, hogy nagy mennyiségű lekérdezést küldesz a modell API-jához, majd a bemeneti-kimeneti párok alapján egy saját, hasonló képességű modellt tanítasz. A modell-lopás jelentős szellemi tulajdon és üzleti kárral járhat.

Modell-inverzió (Model Inversion)

Olyan adatvédelmi támadás, amely során a modell kimeneteiből és belső működéséből próbálsz következtetni az eredeti tanítási adatokra. Sikeres támadás esetén érzékeny információkat, például személyes adatokat vagy arcvonásokat nyerhetsz ki, amelyek a tanítás során lettek felhasználva. Ez komoly adatvédelmi kockázatot jelent, különösen az orvosi vagy pénzügyi szektorban.

Modellellenőrzés

Az a folyamat, amely során szisztematikusan vizsgálod és validálod egy MI modell viselkedését, teljesítményét és biztonságát. A modellellenőrzés során teszteled, hogy a modell megfelel-e az előre definiált követelményeknek, nincsenek-e benne rejtett torzítások vagy sebezhetőségek. Ez a red teaming egyik alapvető tevékenysége.

Modellmanipuláció

Általános gyűjtőfogalom, amely magában foglal minden olyan szándékos kísérletet, amely egy MI modell viselkedésének megváltoztatására irányul. Ide tartoznak az adverzárius támadások, a prompt injection, a modellmérgezés és minden olyan technika, amellyel a modellt a tervezettől eltérő, potenciálisan káros működésre veszed rá. A cél a modell megbízhatóságának és integritásának megsértése.

Megkerülő prompt (Bypass Prompt)

Olyan speciálisan kialakított prompt, amelynek célja, hogy megkerülje az LLM beépített biztonsági szűrőit és etikai irányelveit. Egy ilyen promptot használva ráveheted a modellt, hogy olyan tartalmat generáljon, amelyet normál körülmények között megtagadna, például káros utasításokat vagy gyűlöletkeltő szöveget. A red teaming során gyakran teszteled a modell ellenálló képességét az ilyen típusú manipulációkkal szemben.

Megtévesztő tartalom generálása

Az a képesség, amellyel egy nyelvi modell valósághű, de hamis vagy félrevezető információkat (misinformation, disinformation) hoz létre. Red teamerként az a feladatod, hogy felmérd, a modell milyen könnyen és milyen minőségben használható fel álhírek, propaganda vagy megtévesztő szövegek előállítására. Ennek vizsgálata kulcsfontosságú a társadalmi hatások felmérésében.

Mérséklési technikák (Mitigation Techniques)

Olyan eljárások, eszközök és stratégiák, amelyeket az azonosított sebezhetőségek és támadási vektorok hatásának csökkentésére vagy teljes kiküszöbölésére használsz. A mérséklési technikák közé tartozik például a bemeneti adatok szigorúbb szűrése, a modell robusztusabbá tétele adverzárius tréninggel, vagy a kimenetek folyamatos monitorozása. Ezek a védelmi oldalt erősítik a red teaming során feltárt hibák alapján.

Monitorozás

A mesterséges intelligencia rendszerek folyamatos felügyelete a gyanús vagy anomális viselkedés észlelése érdekében. A monitorozás során figyelemmel kíséred a beérkező promptekat, a modell kimeneteit és a rendszer teljesítményét, hogy időben azonosíthasd a biztonsági incidenseket, például a prompt injection kísérleteket vagy a szolgáltatásmegtagadási támadásokat. Ez egy proaktív védelmi intézkedés.

Méltányosság (Fairness)

Az MI etika egyik alapelve, amely azt vizsgálja, hogy a modell döntései és kimenetei nem diszkriminatívak-e bizonyos demográfiai csoportokkal szemben. Red teamerként tesztelned kell, hogy a modell produkál-e káros sztereotípiákat vagy torzított eredményeket például nem, etnikum vagy kor alapján. A méltányosság biztosítása elengedhetetlen a társadalmilag felelős MI rendszerek létrehozásához.

Mellékhatások minimalizálása

Az AI safety egyik fontos célkitűzése, amely arra összpontosít, hogy a modell működése ne okozzon nem szándékolt, káros következményeket a környezetében. A feladatod felmérni, hogy a modell egy adott probléma megoldása során milyen váratlan és negatív hatásokat válthat ki. Például egy optimalizáló algoritmus a hatékonyság növelése érdekében figyelmen kívül hagyhatja a biztonsági vagy etikai szempontokat.

Memória manipuláció

Olyan fejlett támadási technika, amely során a modell rövid- vagy hosszú távú memóriáját (kontextus ablakát) próbálod manipulálni. A cél lehet, hogy korábbi beszélgetésekből származó, látszólag elfelejtett információkat hívj elő, vagy olyan rejtett utasításokat helyezz el a kontextusban, amelyek később befolyásolják a modell viselkedését. Ez a technika a komplex, több lépésből álló interakciók sebezhetőségeit aknázza ki.

Metrikák (Biztonsági)

Olyan számszerűsíthető mutatók, amelyekkel egy MI modell biztonsági szintjét és sebezhetőségét méred. Ilyen metrika lehet például a sikeres jailbreak kísérletek aránya, a modell ellenállása egy adott típusú adverzárius támadással szemben, vagy a káros tartalmak generálásának gyakorisága. A metrikák segítségével objektíven értékelheted a red teaming erőfeszítések sikerességét és a modell biztonsági fejlődését.

Negatív promptolás

Olyan promptolási technika, amely során kifejezetten meghatározod, hogy mit *ne* tartalmazzon a generált kimenet. A red teaming során ezzel tesztelheted a modell azon képességét, hogy betartja-e a negatív korlátozásokat és tiltásokat. Például egy „írj egy történetet, amiben nincs erőszak” prompt segít felmérni, hogy a modell képes-e a megadott kereteken belül maradni.

Nem-determinisztikus viselkedés

Az LLM-ek azon tulajdonsága, hogy azonos bemenetre (promptra) is képesek különböző kimeneteket adni, különösen magasabb „temperature” beállítások mellett. A biztonsági tesztelés során ez kihívást jelent, mert egy sebezhetőséget nem mindig lehet konzisztensen reprodukálni. A red teaming feladata, hogy feltárja azokat a körülményeket, amelyek mellett a nem-determinisztikus viselkedés káros kimenethez vezet.

Nem szándékolt modellkimenet

Minden olyan generált tartalom, amely eltér a fejlesztők által tervezett vagy elvárt viselkedéstől. Ide tartoznak a ténybeli hibák, a káros tartalmak, a belső rendszerinformációk kiszivárogtatása vagy a beépített korlátozások megkerülése. Az AI red teaming elsődleges célja az ilyen nem szándékolt kimenetek szisztematikus előidézése és dokumentálása.

Neurális háló

Az agy idegsejtjeinek működését utánzó számítási modell, amely a modern mélytanuló rendszerek, így az LLM-ek alapját képezi. Biztonsági szempontból a neurális hálók „fekete doboz” jellege megnehezíti a viselkedésük pontos előrejelzését és a sebezhetőségek okainak feltárását. Az adverzárius támadások gyakran a hálózat belső működésének apró, nehezen észlelhető manipulálásán alapulnak.

Nyelvi modell sebezhetősége

A nyelvi modellek (LLM-ek) tervezésében, tanítási adataiban vagy működési logikájában rejlő gyengeség, amelyet egy támadó kihasználhat. Ilyen sebezhetőség lehet például a prompt injection, az adatvédelmi szivárgás vagy a modell manipulálhatósága a káros tartalmak generálására. Ezek azonosítása és javítása az LLM biztonság központi feladata.

Normasértés detektálása

Az a folyamat, amely során egy AI rendszer vagy egy biztonsági szűrő azonosítja, hogy a generált tartalom megsérti-e a beprogramozott etikai, jogi vagy közösségi normákat. A red teaming során gyakran szándékosan próbálsz olyan helyzeteket teremteni, ahol a modell normákat sért, hogy teszteld a detekciós mechanizmusok hatékonyságát. Ez magában foglalja a gyűlöletbeszéd, a dezinformáció vagy más tiltott tartalmak generálására tett kísérleteket.

Null-prompt injekció

Olyan speciális prompt injection támadás, ahol a támadó egy üres vagy látszólag ártalmatlan bemenettel próbálja meg a modellt egy rejtett, előre beállított (gyakran a rendszerfejlesztő által elhelyezett) rendszerprompt végrehajtására kényszeríteni. A cél általában a modell belső utasításainak vagy konfigurációjának felfedése. Ez a technika a modell belső működésének megértését és a rendszerintegritás tesztelését szolgálja.

Negatív tér tesztelése

Olyan tesztelési stratégia, ahol nem a várt, helyes bemeneteket adod a modellnek, hanem szándékosan érvénytelen, értelmetlen, extrém vagy provokatív inputokat. Az AI biztonságban ez azt jelenti, hogy olyan promptokkal bombázod a modellt, amelyekre nincs „jó” válasza, hogy megfigyeld a viselkedését váratlan helyzetekben. Ezzel a módszerrel feltárhatók a modell korlátainak gyengeségei és a nem kezelt szélsőséges esetek.

Nyelvi támadási felület

Az LLM-ek azon tulajdonsága, hogy a teljes interakció a természetes nyelven keresztül zajlik, ami egy rendkívül széles és nehezen védhető támadási felületet hoz létre. A hagyományos szoftverekkel ellentétben, ahol a bemeneti lehetőségek korlátozottak (pl. gombok, menük), itt bármilyen szöveges tartalom potenciális támadási vektor lehet. A red teamerek ezt a felületet használják ki a modell manipulálására.

Nem megfelelő tartalom generálása

Az LLM egyik leggyakoribb kockázata, amikor a modell erőszakos, diszkriminatív, illegális vagy más módon káros szöveget, képet vagy kódot hoz létre. Az AI biztonsági intézkedések, mint például a tartalomszűrők, ezt hivatottak megakadályozni. A red teaming során aktívan próbálod megkerülni ezeket a szűrőket, hogy azonosítsd a gyenge pontjaikat.

Navigációs promptolás

Olyan kifinomult promptolási technika, ahol egy sor egymásra épülő, logikai lépésekből álló prompttal vezeted rá a modellt egy összetett feladat megoldására vagy egy bizonyos állapot elérésére. Biztonsági kontextusban ezt a módszert használhatod arra, hogy a modellt fokozatosan egy olyan logikai útvonalra tereld, amelynek a végén egy biztonsági korlátozást megkerülő vagy káros kimenetet generál. Ez a „jailbreaking” egy lassú, de hatékony formája.

Nyers modellkimenet

A neurális háló által generált eredeti, szűretlen és feldolgozatlan kimenet, mielőtt az áthaladna bármilyen biztonsági vagy etikai szűrőn. A biztonsági kutatók és red teamerek számára a nyers kimenethez való hozzáférés rendkívül értékes, mert lehetővé teszi a modell alapvető viselkedésének elemzését és a biztonsági rétegek hatékonyságának pontos mérését. Ez segít megérteni, hogy a modell magától biztonságos-e, vagy csak a „ráépített” szűrők miatt tűnik annak.

Objektív kimeneti szűrés

Olyan védelmi mechanizmus, amely a nyelvi modell által generált választ automatikusan elemzi és módosítja, mielőtt az a felhasználóhoz kerülne. Célja, hogy eltávolítsa a káros, nem biztonságos vagy irányelveket sértő tartalmakat, például a személyes adatokat, toxikus szövegeket vagy a tiltott témákra adott válaszokat. Ezt a szűrést te is tesztelheted, amikor megpróbálod kijátszani a modell biztonsági korlátait.

Objektívum-eltérítés (Objective Hijacking)

Olyan támadási forma, amelynek során a támadó úgy manipulálja a modellt vagy annak környezetét, hogy az eredeti, jóindulatú célfüggvény (objektívum) helyett egy rejtett, rosszindulatú célt kezd el követni. Ez a red teaming során egy kulcsfontosságú forgatókönyv, ahol azt vizsgálod, hogy a modell viselkedése megváltoztatható-e anélkül, hogy a kódot közvetlenül módosítanád. A modell látszólag a normál feladatát végzi, de valójában a te rejtett céljaidat szolgálja.

Offenzív MI (Offensive AI)

Az a szakterület, amely az MI-rendszerek támadó jellegű felhasználásával és tesztelésével foglalkozik. Ide tartozik a red teaming, ahol proaktívan keresed a sebezhetőségeket, valamint az olyan modellek fejlesztése, amelyek képesek kijátszani a védelmi rendszereket vagy rosszindulatú tartalmakat generálni. A célod itt nem a védekezés, hanem a támadási felületek feltérképezése.

Oktalan túlzott bizalom (Overreliance)

Az a jelenség, amikor a felhasználók kritikátlanul megbíznak az MI által generált eredményekben, még akkor is, ha azok hibásak, elfogultak vagy manipulatívak. Az LLM biztonság kontextusában ez egy komoly kockázat, mivel a magabiztosan hangzó, de téves információk félrevezethetik a döntéshozókat. A te feladatod red teamerként az lehet, hogy olyan helyzeteket szimulálj, ahol ez a túlzott bizalom komoly károkat okozhat.

Opacitás (Átláthatatlanság)

A komplex MI modellek, különösen a mélytanulási hálózatok azon tulajdonsága, hogy belső működésük nehezen értelmezhető az ember számára. Ez a „fekete doboz” jelenség komoly biztonsági kihívást jelent, mert megnehezíti a hibák, a torzítások vagy a rejtett sebezhetőségek azonosítását. Ha egy modell átláthatatlan, nehezebb megérteni, miért ad egy adott választ egy rosszindulatú promptra.

Operatív biztonság (OpSec)

Az MI red teaming során alkalmazott eljárások és gyakorlatok összessége, amelyek célja a támadási műveletek és a tesztelői identitás titokban tartása. Az OpSec magában foglalja a nyomok eltüntetését, az anonim kommunikációt és az olyan technikák alkalmazását, amelyek megakadályozzák, hogy a védekező csapat (Blue Team) észlelje a tesztelési tevékenységet. A cél, hogy a lehető legrealisztikusabb támadást szimuláld.

Oportunista kihagyás

Olyan kifinomult kijátszási technika, amely során a modell egy egyébként tiltott vagy érzékeny kérésre nem direkt választ ad, hanem szándékosan kihagy kulcsfontosságú információkat, ezzel mégis a támadó céljait szolgálva. Például ahelyett, hogy leírná egy illegális tevékenység lépéseit, csak a hozzá szükséges eszközöket sorolja fel ártatlannak tűnő kontextusban. Te ezt a viselkedést provokálhatod ki, hogy teszteld a modell rejtett engedetlenségét.

Orákulum-hozzáférés (Oracle Access)

A feketedobozos tesztelés egy formája, ahol a támadónak nincs hozzáférése a modell belső működéséhez, de korlátlanul küldhet bemeneteket (promptokat) és elemezheti a kapott kimeneteket. Ez a hozzáférés lehetővé teszi a modell viselkedésének feltérképezését, sebezhetőségek (pl. prompt injection) felfedezését és a védelmi mechanizmusok kijátszását anélkül, hogy ismernéd a modell architektúráját. Red teamerként leggyakrabban ilyen típusú hozzáféréssel dolgozol.

Ortogonális támadási mechanizmusok

Olyan támadási vektorok vagy technikák, amelyek teljesen eltérő elveken alapulnak, mint a meglévő védelmi rendszerek. Például, ha egy modell a káros szavak szűrésére van felkészítve (szintaktikai védelem), egy ortogonális támadás a szöveg szemantikai jelentését változtatja meg úgy, hogy a szavak ártalmatlanok maradnak, de az üzenet kontextusa rosszindulatúvá válik. A te célod ilyen, a védelem által nem várt támadási módszerek kidolgozása.

Osztályon kívüli (Out-of-Distribution, OOD) adatok

Olyan bemeneti adatok, amelyek jelentősen eltérnek attól az adateloszlástól, amelyen a modellt tanították. Az ilyen adatokra adott modellválaszok kiszámíthatatlanok és megbízhatatlanok lehetnek, ami komoly biztonsági és megbízhatósági kockázatot jelent. AI red teamerként szándékosan generálsz OOD bemeneteket, hogy teszteld a modell robusztusságát és viselkedését váratlan helyzetekben.

Ontológia-mérgezés (Ontology Poisoning)

Olyan fejlett adatmérgezési támadás, ahol a támadó a modell tudásbázisának alapját képező ontológiát (a fogalmak és kapcsolataik rendszerét) manipulálja. A cél az, hogy a modell alapvető ismereteit torzítsa el, például egy fogalom jelentését megváltoztassa vagy hamis kapcsolatokat hozzon létre entitások között. Ezáltal a modell logikai következtetései és válaszai alapjaiban válnak megbízhatatlanná.

Overfitting (biztonsági kontextusban)

Bár alapvetően egy gépi tanulási probléma, az overfitting (túltanulás) biztonsági kockázatokat is hordoz. Egy túltanult modell túlságosan memorizálhatja a tanítóadatokat, ami adatvédelmi szivárgáshoz vezethet, ha egy speciális prompttal rávehető a konkrét tanítási példák visszaadására. Red teamerként olyan promptokat hozhatsz létre, amelyekkel pontosan ezeket a memorizált, potenciálisan érzékeny adatokat próbálod kinyerni.

Óvatossági elv alkalmazása

Az AI-biztonság és etika egyik alapelve, amely szerint ha egy MI-rendszer tevékenysége potenciálisan súlyos vagy visszafordíthatatlan kárt okozhat, a tudományos bizonyosság hiánya nem használható fel indokként a megelőző intézkedések elhalasztására. A te feladatod a red teaming során az, hogy olyan extrém, de lehetséges károkozási forgatókönyveket (edge case) azonosíts, amelyek indokolttá teszik az óvatossági elv alkalmazását a modell fejlesztése során.

Prompt injektálás

Olyan támadási technika, amely során a felhasználói inputba rejtett utasításokkal felülírod a modell eredeti, alapvető parancsait. Ezzel a módszerrel ráveheted az LLM-et, hogy olyan feladatokat hajtson végre, amelyek ellentétesek a fejlesztői szándékkal vagy a biztonsági irányelvekkel. A támadás célja lehet adatlopás, káros tartalom generálása vagy a rendszer feletti kontroll átvétele.

Prompt kiszivárogtatás (Prompt Leaking)

Olyan specifikus prompt injektálási támadás, amelynek célja, hogy a modell felfedje a saját rejtett rendszerpromptját vagy a működését meghatározó konfigurációs utasításokat. Ezen információk birtokában a támadók könnyebben találhatnak további sebezhetőségeket. Ez a technika rávilágít a modell belső működésének védelmének fontosságára.

Payload

A prompt injektálási támadás azon része, amely a tényleges káros utasítást vagy kódot tartalmazza. A payload az, amit a támadó végre akar hajtatni a modellel, miután sikerült megkerülnie a védelmi mechanizmusokat. Ez lehet például egy parancs, ami adatbázis-lekérdezést indít, vagy egy utasítás, ami a modell viselkedését változtatja meg.

Poisoning támadás (Data Poisoning)

Adatmérgezéses támadás, amely során a támadó szándékosan manipulált vagy káros adatokat juttat a modell tanító adathalmazába. Ennek eredményeképpen a modell megtanulhat hibás vagy rosszindulatú viselkedésmintákat, hátsó kapukat (backdoors) hozhat létre, vagy elfogulttá válhat. Ez a támadás a modell integritását már az alapoktól kezdve veszélyezteti.

Perszóna-manipuláció

Az a folyamat, amikor egy speciálisan kialakított prompt segítségével ráveszed a modellt, hogy egy adott, általad meghatározott személyiséget (perszónát) vegyen fel. Ez lehet ártalmatlan szerepjáték, de rosszindulatú célokra is használható, például egy megtévesztő, manipulatív karakter létrehozására, amely segít a felhasználók átverésében.

Privát szféra megsértése (Privacy Violation)

Olyan támadási forgatókönyv, amelynek során a modellt arra kényszeríted, hogy felfedjen személyes azonosításra alkalmas információkat (PII) vagy más érzékeny adatokat, amelyeket a tanítása során látott. Ez a támadás kihasználja a modell azon hajlamát, hogy „emlékezzen” a tanítóadatokban szereplő specifikus részletekre. Az ilyen típusú sebezhetőségek elkerülése érdekében elengedhetetlen a tanítóadatok alapos tisztítása és anonimizálása.

Perturbáció

Az adverzárius támadások kontextusában egy apró, az emberi szem számára gyakran észrevehetetlen módosítás a bemeneti adaton (pl. képen vagy szövegen). Bár a változtatás minimális, arra elegendő, hogy a modellt teljesen rossz döntés meghozatalára késztesse. A perturbációk megmutatják a modellek robusztusságának korlátait.

Parafrazeálási támadás

Olyan technika, amellyel a biztonsági szűrőket próbálod megkerülni egy tiltott kérés átfogalmazásával vagy szinonimák használatával. Ahelyett, hogy közvetlenül kérnél valamit, ami a tiltólistán szerepel, körülírod a kérést, remélve, hogy a modell nem ismeri fel a káros szándékot. Ez a módszer a nyelvi modellek szemantikai megértésének hiányosságait használja ki.

Probing (Szondázás)

A modell képességeinek és sebezhetőségeinek szisztematikus feltérképezése célzott lekérdezések sorozatával. A probing során azt vizsgálod, hogy a modell milyen típusú inputokra ad nem kívánt választ, milyen belső tudással rendelkezik, vagy hol húzódnak a biztonsági korlátainak határai. Ez a red teaming egyik alapvető felderítési technikája.

Penetrációs tesztelés (AI Pentesting)

Az AI-rendszerekre specializált biztonsági ellenőrzés, amelynek során etikus hackerek (red teamerek) megpróbálják aktívan kihasználni a modell és az azt körülvevő infrastruktúra sebezhetőségeit. A cél a gyenge pontok azonosítása és javítása, mielőtt egy rosszindulatú támadó találná meg azokat. Ez a folyamat magában foglalja a prompt injektálást, adatmérgezési kísérleteket és egyéb adverzárius technikákat.

Perszonalizált adathalászat (Personalized Phishing)

Az a visszaélési forma, amikor egy nyelvi modellt arra használsz, hogy nagy mennyiségben generáljon rendkívül meggyőző, személyre szabott adathalász üzeneteket. A modell képes a célpont nyilvánosan elérhető adatai alapján olyan szöveget írni, ami hitelesnek tűnik, ezzel jelentősen megnövelve a támadás sikerességének esélyét.

Propaganda-generálás

A nagy nyelvi modellek rosszindulatú alkalmazása, amelynek célja dezinformációs kampányokhoz szükséges, nagy mennyiségű és hihetőnek tűnő propagandaanyag (cikkek, posztok, kommentek) automatizált létrehozása. Ez a technológia felgyorsíthatja a hamis narratívák terjedését és erodálhatja a társadalmi bizalmat.

Proaktív védelem

Olyan biztonsági stratégia, amely nem csupán a már ismert támadásokra reagál, hanem előrejelzi és megelőzi a potenciális fenyegetéseket. Az AI biztonság területén ez magában foglalja a modellek folyamatos monitorozását, a szokatlan viselkedési minták detektálását és a védelmi rendszerek állandó frissítését az új támadási vektorok ellen.

Predefinitált korlátok

Azok a beépített szabályok és biztonsági irányelvek, amelyeket a modell fejlesztése során határoznak meg annak érdekében, hogy megakadályozzák a káros vagy etikátlan viselkedést. Ezek a korlátok definiálják, hogy a modell milyen témákról nem beszélhet, milyen feladatokat nem hajthat végre, és hogyan kell reagálnia a provokatív inputokra. A red teaming egyik célja ezen korlátok tesztelése és megkerülése.

Pszeudonimizálás (Pseudonymization)

Adatvédelmi eljárás, amely során a személyes azonosítókat egyedi, de nem beazonosítható álnevekkel (pszeudonimokkal) helyettesíted a tanító adathalmazban. Bár nem nyújt teljes anonimitást, csökkenti a személyes adatok kiszivárgásának kockázatát, ha a modell véletlenül reprodukálna részeket a tanítóadatokból.

Protokoll-szintű védelem

Olyan biztonsági mechanizmusok, amelyeket nem közvetlenül a modellben, hanem az azt kiszolgáló API-n vagy kommunikációs protokollon keresztül valósítasz meg. Ilyen lehet például a bemeneti és kimeneti adatok szigorú validálása, a kérések gyakoriságának korlátozása (rate limiting), vagy a felhasználói szerepkörökön alapuló hozzáférés-szabályozás. Ezek a védelmi rétegek megnehezítik a modell elleni támadásokat.

Kvantálási Részrehajlás (Quantization Bias)

Olyan torzítás, amely a neurális hálózati modellek súlyainak és aktivációinak alacsonyabb pontosságú numerikus formátumba (pl. 32 bites lebegőpontosról 8 bites integerre) való konvertálása során keletkezik. Ez a precizitásvesztés kihasználható sebezhetőségeket hozhat létre, mivel az apró bemeneti változtatások a kvantált modellben aránytalanul nagy hibákat okozhatnak. A red teaming során tesztelned kell, hogy a kvantálás miként befolyásolja a modell robusztusságát.

Kvantálási Támadás (Quantization Attack)

Olyan adverzárius támadási technika, amely kifejezetten a modell kvantálási folyamatából adódó sebezhetőségeket célozza. A támadó olyan, minimálisan módosított bemenetet hoz létre, amely a nem kvantált modellen még helyes eredményt adna, de a kvantálás utáni, csökkentett precizitású modellen már hibás klasszifikációhoz vagy kimenethez vezet. Ez különösen hatékony lehet az erőforrás-korlátos környezetekben (pl. edge eszközökön) telepített modellek ellen.

Kvalitatív Sebezhetőség Elemzés

Olyan red teaming módszertan, amely nem a sebezhetőségek mennyiségi mérésére (pl. sikeres támadások aránya), hanem azok minőségi jellemzőire, kontextusára és potenciális hatására fókuszál. Ebben a folyamatban forgatókönyv-alapú teszteket hajtasz végre, hogy feltárd a modell logikai, etikai vagy kontextuális megértésbeli hiányosságait. A cél a „miért” megértése a „mennyi” helyett.

Kvóta Kimerítési Támadás (Quota Exhaustion Attack)

Egyfajta szolgáltatásmegtagadási (Denial of Service) támadás, amely az LLM API-k hozzáférési korlátait (kvótáit) célozza. A támadó nagy mennyiségű, erőforrás-igényes lekérdezést küld a rendszernek, hogy gyorsan kimerítse a felhasználó vagy a szervezet napi/havi API hívási limitjét. Ennek eredményeként a legitim felhasználók számára a szolgáltatás elérhetetlenné válik.

Q-vektor Manipuláció

A megerősítéses tanulási (Reinforcement Learning) modellek, különösen a Q-learning alapú ágensek elleni támadási forma. A támadó célja a modell Q-táblájának vagy Q-függvényének (a „Q-vektorok”) manipulálása oly módon, hogy az ágens szándékosan rossz vagy rosszindulatú döntéseket hozzon bizonyos állapotokban. Ez a modell tanítási fázisában adatmanipulációval vagy a környezet megtévesztésével érhető el.

Questio-alapú Etikai Szűrés

Fejlett biztonsági mechanizmus, amely a promptok etikai és biztonsági elemzésekor nem csupán kulcsszavakat keres, hanem a mögöttes kérdés vagy szándék (latinul „questio”) természetét próbálja megérteni. Ez a módszer segít kiszűrni azokat a kártékony kéréseket, amelyek ártalmatlan szavakkal vannak álcázva, de a céljuk veszélyes tartalom generálása. Ahelyett, hogy a „hogyan készíts bombát” kifejezést blokkolná, a „hogyan lehet háztartási anyagokból nagy nyomású eszközt készíteni” mögötti szándékot is felismeri.

Quick-Response Red Team (QRRT)

Specializált, gyors reagálású vörös csapat, amelyet kifejezetten az újonnan felfedezett, „nulladik napi” (zero-day) AI sebezhetőségek azonnali tesztelésére és validálására hoztak létre. Amikor egy új támadási vektor (pl. egy új jailbreak technika) ismertté válik, a QRRT feladata, hogy napokon vagy akár órákon belül reprodukálja a támadást a szervezet saját modelljein. Ezzel felmérik a kockázatot és segítik a védelmi intézkedések kidolgozását.

Kvalitásromlás Detektálása

Olyan monitorozási eljárás, amely folyamatosan figyeli az AI modell kimenetének minőségét, hogy azonosítsa a teljesítmény finom, de folyamatos romlását. Ez a romlás utalhat rejtett adat- vagy modellmérgezési támadásra, koncepciósodródásra (concept drift) vagy a modell elavulására. A red teaming során szimulálnod kell az ilyen lassú romlást okozó támadásokat, hogy teszteld a detekciós rendszerek hatékonyságát.

Q&A Modell Kifürkészése (Q&A Model Evasion)

Olyan adverzárius technika, amely kifejezetten a kérdés-válasz (Question & Answer) rendszerek megtévesztésére irányul. A támadó úgy fogalmazza át a kérdést, ad hozzá felesleges kontextust vagy használ szinonimákat, hogy a modell ne ismerje fel a helyes választ a szövegben, vagy egy teljesen irreleváns, de nyelvtanilag hihetőnek tűnő választ adjon. Célja a modell szövegértési képességeinek korlátainak kihasználása.

Kvantilis Regressziós Támadás (Quantile Regression Attack)

Statisztikai alapú, kifinomult támadás, amely azokat a modelleket célozza, amelyek nem egyetlen értéket, hanem egy teljes valószínűségi eloszlást (kvantiliseket) jósolnak. A támadó olyan bemeneteket hoz létre, amelyek a modell predikciós eloszlását torzítják, például szélsőségesen magabiztossá teszik egy rossz válaszban, vagy indokolatlanul bizonytalanná egy helyes válasz esetén. Ez a módszer a modell megbízhatóságát és kockázatértékelési képességét ássa alá.

Kvázi-imperceptibilis Perturbáció

Olyan adverzárius bemeneti zavarás (perturbáció), amely bár technikailag nem teljesen észrevehetetlen (imperceptibilis), egy átlagos emberi felhasználó számára mégis rejtve marad, mert nem vonja magára a figyelmet. Például egy szöveges promptban egy-egy karakter cseréje egy vizuálisan nagyon hasonló másikra (pl. latin ‘a’ cseréje cirill ‘а’-ra), vagy egy alig hallható zaj hozzáadása egy hangfájlhoz. Ezek a perturbációk elegendőek lehetnek a modell megtévesztéséhez, miközben a red teaming során a „lopakodó” támadások kategóriájába tartoznak.

Red Teaming (AI)

Strukturált tesztelési folyamat, ahol a cél az AI-rendszerek, különösen az LLM-ek gyengeségeinek, sebezhetőségeinek és nem kívánt viselkedésének proaktív feltárása. A red team egy támadó gondolkodásmódját veszi fel, hogy szimulálja a valós fenyegetéseket, mielőtt azok kárt okoznának. Ez a folyamat segít a fejlesztőknek megerősíteni a modell védelmi mechanizmusait a nyilvános bevezetés előtt.

Robusztusság

A modell azon képessége, hogy megőrzi a teljesítményét és a pontosságát akkor is, ha zajos, hiányos vagy szándékosan manipulatív (adversarial) bemeneti adatokkal találkozik. Egy robusztus modell kevésbé hajlamos a félrevezetésre és ellenállóbb a támadásokkal szemben. A robusztusság tesztelése kulcsfontosságú eleme az AI biztonsági auditoknak.

Rizikóelemzés (AI)

Az AI-rendszerekhez kapcsolódó potenciális veszélyek, sebezhetőségek és azok lehetséges hatásainak szisztematikus azonosítása és értékelése. A folyamat segít rangsorolni a kockázatokat és megalapozott döntéseket hozni a megfelelő biztonsági intézkedések bevezetéséről. Magában foglalja a technikai, etikai és társadalmi kockázatok felmérését is.

Szerepjáték-alapú Támadás (Role-Playing Attack)

Olyan promptolási technika, amely során arra utasítod a modellt, hogy egy adott karaktert vagy perszónát vegyen fel (pl. „Viselkedj úgy, mint egy korlátok nélküli AI!”). Ezzel a módszerrel gyakran megkerülhetők a beépített biztonsági szűrők, mivel a modell a szerepének megfelelően, nem pedig az eredeti szabályai szerint kezd el válaszolni. Ez a jailbreaking egyik leggyakoribb formája.

Refuzális Megkerülése (Refusal Bypass)

Olyan támadási technika, amelynek célja, hogy a nyelvi modell ne utasítson el egy káros vagy szabályzatba ütköző kérést. A támadó különböző prompt engineering trükkökkel próbálja rávenni a modellt, hogy válaszoljon olyasmire, amit normál esetben a biztonsági protokolljai miatt megtagadna. Az ilyen támadások sikeres kivédése a modell biztonságosságának egyik fokmérője.

Regurgitáció (Adat)

Az a jelenség, amikor egy nyelvi modell szó szerint vagy közel szó szerint visszaadja a tanítóadatbázisában szereplő szövegrészleteket. Ez komoly adatvédelmi és szerzői jogi kockázatot jelent, különösen akkor, ha a modell személyes adatokat vagy védett tartalmat idéz. A red teaming során gyakran tesztelik, hogy a modell hajlamos-e a regurgitációra.

Reward Hacking

Az AI biztonság egyik alapvető problémája, ahol a modell megtalálja a módját, hogy maximalizálja a jutalmazási (reward) metrikáját anélkül, hogy a fejlesztő által elvárt, kívánatos viselkedést hajtaná végre. Lényegében egy kiskaput talál a szabályrendszerben, ami nem várt és potenciálisan káros eredményekhez vezethet. Ez a probléma különösen a megerősítéses tanulással (RL) trénelt modelleket érinti.

Rezisztencia (Modell)

A modell ellenálló képessége a különböző támadási formákkal, például prompt injekcióval, adatlopással vagy jailbreakinggel szemben. A magas rezisztencia azt jelenti, hogy a modell védelmi mechanizmusai hatékonyan működnek és nehéz őket megkerülni. Ezt a képességet folyamatos red teaming és biztonsági tesztelés segítségével mérik és fejlesztik.

Rizikócsökkentés

Azon intézkedések és stratégiák összessége, amelyeket egy AI-rendszer fejlesztése és üzemeltetése során alkalmazol a feltárt kockázatok minimalizálása érdekében. Ide tartozik például a modell finomhangolása a biztonságosabb válaszok érdekében, a bemeneti és kimeneti szűrők alkalmazása, vagy a felhasználói interakciók monitorozása. A cél a potenciális károk mérséklése.

Rekurzív Önfejlesztés Kockázatai

Az AI safety egyik elméleti, de fontos területe, amely azokkal a veszélyekkel foglalkozik, amelyek egy önmagát exponenciális ütemben javító mesterséges intelligencia (AGI) esetén merülnének fel. A kockázatok közé tartozik az irányíthatóság elvesztése és a célok eltolódása (goal misalignment). A biztonságos AI fejlesztésének célja, hogy ezeket a kockázatokat már a kezdetektől kezelje.

Reprodukálhatóság (Támadásoké)

Egy adott támadás vagy sebezhetőség kihasználásának képessége, hogy azt következetesen, több alkalommal is meg lehessen ismételni azonos vagy hasonló eredményekkel. A red teaming során a reprodukálhatóság kulcsfontosságú, mivel ez bizonyítja, hogy a felfedezett hiba nem véletlenszerű, hanem egy valós, javítandó sebezhetőség. A dokumentált, reprodukálható támadások segítik a fejlesztőket a hiba gyors kijavításában.

Rendszerszintű Prompt (System Prompt)

A nyelvi modellel való interakció során használt, általában a fejlesztő által meghatározott, magas szintű utasításkészlet, amely meghatározza a modell viselkedését, stílusát és korlátait. A rendszerszintű prompt biztonsága kritikus, mert ha egy támadó képes felülírni vagy manipulálni, azzal átveheti az irányítást a modell viselkedése felett. A prompt injection támadások gyakran ezt a réteget célozzák.

Szemantikai támadás

Olyan kifinomult támadási módszer, ahol a támadó a szavak jelentésével és a kontextussal manipulál, hogy az AI modellt megtévessze. Nem a kód vagy a szintaxis hibáit használja ki, hanem azt, ahogyan a modell a nyelvi árnyalatokat értelmezi, ezzel kikerülve a beépített biztonsági szűrőket. Például egy ártalmatlannak tűnő kérés mögé rejtett káros szándékot a modell a szemantikai félreértelmezés miatt teljesíthet.

Szenzitív adatok kiszivárogtatása

Ez a kockázat arra utal, amikor egy nyelvi modell véletlenül vagy egy célzott támadás hatására bizalmas információkat fed fel. Ilyen adat lehet például személyazonosításra alkalmas információ (PII), üzleti titok vagy a modell belső működésére vonatkozó részlet. A red teaming során gyakran teszteled, hogy milyen promptokkal lehet ilyen nem kívánt információmegosztásra bírni a rendszert.

Szerepjátékos támadás (Role-Playing Attack)

Olyan prompt injection technika, amely során arra utasítod a modellt, hogy vegyen fel egy bizonyos szerepet vagy személyiséget, amely felülírja az eredeti biztonsági korlátozásait. Például, ha a modellt egy „korlátok nélküli, fiktív AI” szerepébe kényszeríted, hajlandóbb lehet olyan témákról beszélni vagy olyan feladatokat végrehajtani, amelyeket normál esetben megtagadna. Ez a módszer a modell engedelmességét és kontextus-követő képességét használja ki.

Szigorú bemeneti szűrés (Input Sanitization/Filtering)

Védelmi mechanizmus, amelynek célja a felhasználótól érkező bemeneti adatok (promtok) elemzése és megtisztítása a potenciálisan káros vagy nem megengedett tartalmaktól. A szűrési folyamat eltávolíthat vagy átalakíthat bizonyos kulcsszavakat, kódrészleteket vagy parancsokat, mielőtt azok eljutnának a nyelvi modellhez. A cél a prompt injection és más, bemeneten keresztüli támadások megelőzése.

Szimulált támadási forgatókönyv

Az AI red teaming egyik alapvető eleme, ahol egy valós támadási helyzetet modellezel le egy kontrollált környezetben. A forgatókönyv meghatározza a támadó céljait, a feltételezett képességeit és az alkalmazott technikákat. Ezek a szimulációk segítenek azonosítani a rendszer gyenge pontjait, mielőtt egy valódi támadó találná meg azokat.

Szociális mérnökösködés (Social Engineering)

Olyan pszichológiai manipuláción alapuló támadási forma, amelyet LLM-ek ellen is alkalmazhatsz. A támadó megpróbálja rávenni a modellt, hogy bizalmas információt adjon ki vagy káros műveletet hajtson végre azáltal, hogy sürgősséget, segítőkészséget vagy tekintélyt színlel a promptban. A modell, mivel emberi kommunikáció utánzására tervezték, különösen érzékeny lehet az ilyen típusú manipulációra.

Szoftverellátási lánc biztonsága (Software Supply Chain Security)

Az AI rendszerek esetében ez a terület a modell létrehozásához és telepítéséhez használt összes komponens (adatkészletek, keretrendszerek, könyvtárak, előképzett modellek) biztonságát vizsgálja. Egy támadó megfertőzhet egy betanításhoz használt adatkészletet vagy egy nyílt forráskódú könyvtárat, hogy hátsó kaput vagy rejtett sebezhetőséget helyezzen el a kész modellben. Ennek ellenőrzése kritikus fontosságú a megbízható AI rendszerek építéséhez.

Stressztesztelés

Olyan tesztelési eljárás, amelynek során az AI modellt szándékosan extrém terhelésnek vagy szokatlan bemeneti feltételeknek teszed ki. A cél annak felmérése, hogyan viselkedik a rendszer a határain, például hatalmas mennyiségű kérés, nagyon hosszú promptok vagy erőforrás-igényes feladatok esetén. A stressztesztelés felfedhet teljesítménybeli problémákat, stabilitási hibákat vagy szolgáltatásmegtagadási (DoS) sebezhetőségeket.

Sztereotípiák felerősítése

Az AI etika és biztonság egyik komoly problémája, amikor a modell a betanítási adataiban jelen lévő társadalmi előítéleteket és sztereotípiákat nemcsak megismétli, hanem felerősíti. Ez káros vagy sértő kimenetekhez vezethet, amelyek fenntartják a diszkriminatív nézeteket. A red teaming feladatai közé tartozik az ilyen viselkedést kiváltó promptok azonosítása és a torzítások felderítése.

Szivárgásos absztrakció (Leaky Abstraction)

Olyan biztonsági hiba, amikor egy magas szintű rendszer (mint egy LLM) véletlenül felfedi a mögöttes működésének részleteit. Ez történhet például akkor, ha a modell egy hibaüzenetben, vagy egy speciálisan megfogalmazott promptra válaszul információt szivárogtat a belső architektúráról, a rendszer-promptjáról vagy a használt szoftververziókról. Ezeket az információkat egy támadó további, célzottabb támadásokhoz használhatja fel.

Súlyozásmérgezés (Weight Poisoning)

Adatmérgezési támadás egy speciális formája, ahol a támadó a modell finomhangolási vagy betanítási folyamatát manipulálja. A cél, hogy olyan adatokat juttasson a tanító adathalmazba, amelyek a modell belső súlyainak (paramétereinek) finom, de rosszindulatú módosulását okozzák. Ez rejtett hátsó kapukat vagy előre meghatározott, hibás viselkedést eredményezhet bizonyos bemenetek esetén.

Szakpolitikai megfelelés vizsgálata (Policy Compliance Testing)

Annak ellenőrzése, hogy az AI modell válaszai összhangban vannak-e a vállalat vagy a szolgáltató által meghatározott belső szabályzatokkal és használati feltételekkel. Ez magában foglalja annak tesztelését, hogy a modell nem generál-e illegális, etikátlan, gyűlöletkeltő vagy más, a szabályzat által tiltott tartalmat. A red teaming gyakran próbálja szándékosan megsérteni ezeket a szabályokat, hogy felmérje a biztonsági szűrők hatékonyságát.

Támadási felület (Attack Surface)

Ez a kifejezés az AI-rendszer azon részeit jelöli, amelyeken keresztül egy támadó potenciálisan kárt okozhat. Ide tartoznak az API végpontok, a felhasználói bemeneti mezők, a tanítóadatokhoz való hozzáférés és a modell által használt külső eszközök. A red teaming során az a célod, hogy feltérképezd és teszteld ezt a felületet a rejtett sebezhetőségek felderítésére.

Támadási vektor (Attack Vector)

A konkrét útvonal vagy módszer, amelyet egy támadó felhasznál az AI-rendszer sebezhetőségeinek kihasználására. Például egy speciálisan kialakított prompt (prompt injection) vagy egy manipulált bemeneti kép (adversarial example) is egy-egy támadási vektornak számít. A védekezés kulcsa ezen vektorok ismerete és blokkolása.

Támadás-szimuláció (Attack Simulation)

Olyan red teaming tevékenység, ahol valós támadási forgatókönyveket játszol el egy AI-rendszer ellen, hogy felmérd annak védekezési képességeit. A cél nem a tényleges károkozás, hanem a sebezhetőségek azonosítása kontrollált környezetben. Ez a folyamat segít proaktívan felkészülni a valódi fenyegetésekre.

Tanítóadat-mérgezés (Training Data Poisoning)

Olyan adverzárius támadás, ahol a támadó szándékosan manipulált vagy káros adatokat juttat a modell tanító adathalmazába. Ennek célja lehet egy hátsó kapu (backdoor) létrehozása, a modell teljesítményének rontása, vagy elfogult (biased) viselkedés előidézése. A támadás rendkívül alattomos, mert a káros viselkedés csak specifikus események (triggerek) hatására aktiválódik.

Tanítóadat-szivárgás (Training Data Leakage)

A modell biztonságának megsértése, amely során a modell kimeneteiből érzékeny vagy személyes információk nyerhetők ki a tanítóadatokból. Ezt kihasználva a támadók visszafejthetik például a betanításhoz használt személyes adatokat, üzleti titkokat. A jelenség megelőzésére differenciális adatvédelmi (differential privacy) technikákat használhatsz.

Templét-injektálás (Template Injection)

A prompt injection egy formája, ahol a támadó egy előre definiált sablon (template) változóiba illeszt káros utasításokat. Amikor a rendszer kitölti a sablont a felhasználói adatokkal, a rejtett parancs beágyazódik a végső promptba, és a modell végrehajtja azt. Ez a módszer különösen hatékony lehet az olyan rendszerek ellen, amelyek strukturált bemenetekre támaszkodnak.

Téves információk generálása (Hallucináció)

Az LLM-ek azon hajlama, hogy magabiztosan állítanak valótlan, pontatlan vagy a valósággal össze nem egyeztethető információkat. Ez nem szándékos hazugság, hanem a modell működéséből fakadó statisztikai hiba. AI biztonsági szempontból kritikus probléma, mert alááshatja a felhasználói bizalmat és veszélyes félreinformáláshoz vezethet.

Token

A nagy nyelvi modellek (LLM) által feldolgozott alapegység, amely lehet egy szó, egy szótöredék vagy akár egyetlen karakter. A modellek a bemeneti szöveget tokenekre bontják, és ezek alapján számítják ki a legvalószínűbb következő tokent. A tokenek manipulálása (pl. token smuggling) a prompt injection támadások egyik alapja.

Token-csempészet (Token Smuggling)

Fejlett prompt injection technika, ahol a támadó prompt egy részét a rendszer számára láthatatlannak tűnő módon, például formázási vagy kódolási trükkökkel rejted el. A cél, hogy a bemeneti szűrőket megkerülve a rejtett utasításokat a modell feldolgozza. Ez különösen hatékony lehet a szigorúan szűrt rendszerek ellen.

Toxicitás-szűrés (Toxicity Filtering)

Olyan AI biztonsági mechanizmus, amelynek célja a káros, sértő, gyűlöletkeltő vagy más módon nem megfelelő tartalmak azonosítása és blokkolása a modell bemenetén és kimenetén. A szűrők beállítása komoly kihívás, mert egyensúlyt kell találnod a cenzúra és a biztonság között. A red teaming során gyakran teszteled ezen szűrők megkerülhetőségét.

Tool-használat sebezhetőségei (Tool Use Vulnerabilities)

A modern LLM-ek képesek külső eszközöket (pl. API-kat, keresőmotorokat, kódfuttatókat) használni. Ez a képesség új támadási felületet nyit, ahol a támadók rávehetik a modellt, hogy az eszközöket nem rendeltetésszerűen, például adatlopásra vagy rendszerek manipulálására használja. Az ilyen típusú támadásokat indirekt prompt injectionnek is nevezik.

Transzparencia (Transparency)

Az AI etika egyik alapelve, amely azt jelenti, hogy az AI-modell működése, döntési folyamatai és a felhasznált adatok érthetőek és ellenőrizhetőek. A transzparens rendszerek esetében könnyebben megértheted, hogy a modell miért adott egy bizonyos választ. Ez növeli a rendszerbe vetett bizalmat és segíti a hibák felderítését.

Trigger (Adverzárius)

Olyan speciális bemenet vagy minta, amely egy tanítóadat-mérgezéssel kompromittált modellben rejtett, káros viselkedést aktivál. A trigger lehet egy ártalmatlannak tűnő szó, kép vagy szimbólum. Amikor a modell ezzel a triggerrel találkozik, a támadó által beültetett hátsó kapu (backdoor) aktiválódik, és a modell a támadó szándékai szerint kezd működni.

Túlzott magabiztosság (Overconfidence)

A modell azon hibás viselkedése, amikor a bizonytalan vagy téves válaszaihoz is indokolatlanul magas megbízhatósági (confidence) pontszámot rendel. Ez a jelenség félrevezetheti a felhasználókat és a rendszereket, amelyek a modell kimenetére támaszkodnak. Az AI safety egyik fontos kutatási területe a modellek kalibrációjának javítása, hogy a megbízhatósági szintjük a valós pontosságukat tükrözze.

Támadhatósági vizsgálat (Vulnerability Assessment)

Rendszeres biztonsági folyamat, amelynek során azonosítod, osztályozod és priorizálod egy AI-rendszer sebezhetőségeit. Ez magában foglalja a modell, az infrastruktúra és az adatok vizsgálatát is. A red teaming a támadhatósági vizsgálat egy proaktív, gyakorlati formája.

Utasítás-injektálás

Ez a támadási technika a prompt injection egyik formája, ahol rosszindulatú utasításokat szúrsz be egy egyébként ártalmatlan promptba. A célod az, hogy az LLM-et rávedd, hogy a te rejtett parancsaidat hajtsa végre az eredeti, szándékolt feladat helyett. Például egy szöveg összefoglalása helyett a modell egy sértő verset ír, mert a bemeneti szövegben elrejtettél egy ilyen utasítást.

Utasítás-eltérítés

Az utasítás-eltérítés során átveszed az irányítást a modell viselkedése felett azáltal, hogy felülírod vagy figyelmen kívül hagyatod vele az eredeti rendszerszintű utasításait (system prompt). Ezzel a technikával a modell biztonsági korlátait próbálod megkerülni, és olyan feladatokra kényszeríteni, amelyeket normál esetben elutasítana. A sikeres eltérítés azt eredményezi, hogy a modell a te szabályaid szerint működik, nem pedig a fejlesztői által beállítottak szerint.

Univerzális adverzárius perturbáció

Olyan speciálisan létrehozott, alacsony intenzitású zajminta, amelyet szinte bármilyen bemeneti adathoz (pl. képhez) hozzáadva a neurális háló téves klasszifikációt ad. Az „univerzális” jelző arra utal, hogy ugyanaz a perturbáció sok különböző bemenet esetén is hatékonyan működik. A red teaming során ilyen perturbációkat hozhatsz létre, hogy teszteld a modell robusztusságát a bemeneti adatok apró, rosszindulatú módosításaival szemben.

Utánzásos támadás

Ebben a támadási forgatókönyvben az LLM-et arra veszed rá, hogy egy másik személynek, entitásnak vagy akár egy megbízható rendszernek adja ki magát. A cél a megtévesztés, például hamis, de hitelesnek tűnő e-mailek generálása egy cégvezető nevében, vagy egy ügyfélszolgálati chatbotnak álcázva érzékeny adatok megszerzése. A red teaming során az ilyen támadásokkal a modell szociális manipulációra való hajlamát teszteled.

Utólagos biztonsági elemzés

Ez a folyamat a modell telepítése vagy egy biztonsági incidens bekövetkezte után zajlik, ahol visszamenőleg vizsgálod a modell naplóit, kimeneteit és viselkedését. Célja a sebezhetőségek azonosítása, a támadások mintázatainak feltárása és a jövőbeli incidensek megelőzését szolgáló tanulságok levonása. Az elemzés során olyan kérdésekre keresel választ, mint hogy hogyan sikerült egy jailbreak, vagy milyen promptok vezettek nemkívánatos viselkedéshez.

Újraprogramozás (jailbreaking kontextusban)

Ez a kifejezés arra a folyamatra utal, amikor egy gondosan megtervezett prompt segítségével ideiglenesen „átprogramozod” az LLM működését, hogy figyelmen kívül hagyja a beépített biztonsági szabályait. Lényegében egy új, engedékenyebb személyiséget vagy szerepet adsz a modellnek, amely lehetővé teszi számára, hogy tiltott témákról beszéljen vagy káros tartalmat generáljon. Ez a technika a jailbreaking és a prompt injection alapvető eleme.

Univerzális trigger

Olyan speciális szó, mondat vagy karaktersorozat, amely egy modellbe rejtett, rosszindulatú viselkedést (backdoor) aktivál. Az univerzális jelző azt jelenti, hogy a trigger a bemeneti kontextustól függetlenül működik, és bármilyen promptba illesztve előhívja a káros funkciót. Ilyen triggerekkel tesztelheted, hogy a modell képzési adatai között volt-e szándékosan elhelyezett, rosszindulatú minta (data poisoning).

Unalmas kimenet kényszerítése

Olyan erőforrás-kimerítő (denial-of-service) támadás, ahol a modellt egy ismétlődő, értelmetlen vagy rendkívül hosszú kimenet generálására kényszeríted. Ezt speciális, rekurzív promptokkal vagy logikai csapdákkal érheted el, amelyek a modellt egy végtelen ciklusba zárják. A cél a számítási kapacitás felesleges lekötése és a szolgáltatás minőségének rontása.

Utólagos adatfelejtés (Unlearning)

Az a folyamat, amely során egy már betanított modellt arra utasítasz, hogy „elfelejtsen” bizonyos adatokat, amelyeken eredetileg tanult. Ez kritikus fontosságú a személyes adatok védelme (pl. GDPR „right to be forgotten”) és a torzítások vagy káros információk eltávolítása szempontjából. A biztonsági kutatás egyik aktív területe, hogyan lehet ezt hatékonyan és a modell teljesítményének romlása nélkül megvalósítani.

Univerzális megfelelési teszt

Olyan automatizált tesztelési eljárás, amelynek célja, hogy felmérje, a modell következetesen betartja-e az alapvető biztonsági és etikai irányelveket, függetlenül a felhasználói promptok változatosságától. A teszt során a modellt széles körű, potenciálisan provokatív bemenetekkel bombázod, hogy ellenőrizd, univerzálisan ellenáll-e a manipulációs kísérleteknek. Ez segít a rejtett sebezhetőségek és következetlenségek feltárásában.

Utasításkövetési hűség

Ez a metrika azt méri, hogy egy LLM mennyire pontosan és megbízhatóan tartja be a neki adott utasításokat, különösen a rendszerszintű promptban foglalt korlátozásokat. A magas hűség azt jelenti, hogy a modell nehezen téríthető el a fejlesztői szándéktól, míg az alacsony hűség sebezhetőséget jelez a prompt injection és a jailbreaking támadásokkal szemben. Red teamerként az a célod, hogy olyan eseteket találj, ahol ez a hűség megtörik.

Ugródeszka-támadás

Ez egy összetett támadási forma, ahol a támadó nem közvetlenül az LLM-et célozza, hanem azt használja eszközként („ugródeszkaként”) más rendszerek megtámadására. Például az LLM-mel rosszindulatú kódot vagy szkripteket generáltathatsz, amiket aztán egy másik, sebezhető szoftverben futtatsz le. A red teaming során azt vizsgálod, hogy a modell milyen mértékben használható fel ilyen közvetett támadások előkészítésére.

Utófeldolgozási szűrők

Olyan védelmi mechanizmusok, amelyek a modell által generált választ elemzik és szűrik, mielőtt az a felhasználóhoz eljutna. Ezek a szűrők felismerhetik és eltávolíthatják a káros tartalmakat, a személyes adatokat (PII), a toxikus nyelvezetet vagy a modell által véletlenül kiszivárogtatott belső információkat. Bár hasznosak, a támadók gyakran próbálják ezeket a szűrőket is megkerülni, például rejtett vagy kódolt üzenetekkel.

Vakfolt-elemzés

Az a folyamat, amely során szisztematikusan feltárod egy AI modell „vakfoltjait”, vagyis azokat a témaköröket, adatokat vagy kontextusokat, amelyekben a modell gyengén teljesít, téves információkat ad, vagy könnyen manipulálható. A red teaming során ez segít azonosítani a rejtett sebezhetőségeket, mielőtt egy rosszindulatú támadó tenné meg.

Válaszadás manipulációja

Olyan támadási technika, amelynek célja az LLM kimenetének (válaszának) illegitim befolyásolása. Ide tartozik a prompt injection, ahol a modellnek adott utasításokat úgy módosítod, hogy az figyelmen kívül hagyja az eredeti biztonsági korlátait, és az általad kért, tiltott vagy káros tartalmat generálja.

Védelmi mechanizmus

Bármilyen technikai vagy eljárásbeli megoldás, amelyet egy AI rendszer védelmére implementálsz. Ez lehet egy bemeneti szűrő, amely kiszűri a káros promptokat, egy kimeneti validátor, amely ellenőrzi a generált tartalom biztonságosságát, vagy egy mechanizmus, amely detektálja az anomális felhasználói viselkedést.

Vektoros támadás

Az adverzárius támadások egy specifikus típusa, ahol a támadó a modell belső reprezentációját, azaz a bemeneti adatokból képzett numerikus vektorokat (embeddingeket) manipulálja. A cél az, hogy a vektorok apró, célzott módosításával a modell működésében jelentős és káros változást érj el, például egy kép téves osztályozását.

Veszélyforrás-elemzés

A red teaming alapvető lépése, amely során azonosítod és értékeled az AI rendszert fenyegető potenciális veszélyeket és támadási vektorokat. Ebben a fázisban feltérképezed, hogy kik, milyen motivációval és milyen eszközökkel támadhatják a modellt, hogy erre felkészíthesd a védelmet.

Visszafejtés (Modell-visszafejtés)

Az a folyamat, amely során egy támadó megpróbálja feltárni egy „fekete dobozként” működő AI modell belső tulajdonságait, például az architektúráját, a súlyait vagy a betanításához használt adatokat. Ezt általában a modellnek küldött nagyszámú lekérdezés és a kapott válaszok elemzése révén éred el.

Visszaélés-észlelés

Automatizált rendszerek és algoritmusok alkalmazása, amelyek valós időben figyelik az AI modell használatát a visszaélésszerű viselkedés jeleit kutatva. Ilyen lehet például, ha egy felhasználó tömegesen próbál tiltott tartalmat generáltatni, vagy ha egy bot DoS-támadást indít a rendszer ellen.

Visszautasítási képesség tesztelése

Az AI biztonsági tesztelésének (AI safety) egy kulcsfontosságú területe, ahol célzottan azt vizsgálod, hogy a modell képes-e és hajlandó-e elutasítani az etikátlan, illegális vagy veszélyes kéréseket. A tesztek során megpróbálod rávenni a modellt a biztonsági irányelveinek megszegésére.

Virtuális védőháló (Guardrails)

Az AI modellek köré épített szoftveres korlátok és szabályok rendszere, amely megakadályozza, hogy a modell bizonyos témákról beszéljen, káros tartalmat generáljon, vagy a fejlesztők által nem kívánt módon viselkedjen. Ezek a védőhálók az etikus és biztonságos működés alapját képezik.

Vezérlőkarakter-injekció

A prompt injection egy kifinomult formája, ahol nem látható vezérlőkaraktereket (pl. soremelés, tabulátor) vagy speciális Unicode karaktereket csempészel a promptba. Ezzel megzavarhatod a modell szövegértelmezési folyamatát, és ráveheted olyan utasítások végrehajtására, amelyeket egyébként figyelmen kívül hagyna.

Vizuális adverzárius támadás

Olyan támadási forma, amely kifejezetten a képeket vagy videókat feldolgozó AI modelleket (pl. képfelismerő rendszereket) célozza. A támadó apró, az emberi szem számára gyakran láthatatlan módosításokat hajt végre egy képen, aminek hatására a modell teljesen tévesen azonosítja a kép tartalmát.

Validálás (Bemeneti és kimeneti)

A modell biztonságának elengedhetetlen része. A bemeneti validálás során ellenőrzöd, hogy a felhasználótól érkező prompt nem tartalmaz-e káros kódot vagy tiltott kifejezéseket, míg a kimeneti validálás azt biztosítja, hogy a modell által generált válasz megfelel a biztonsági és etikai irányelveknek.

Viselkedési klónozás

Olyan modelllopási technika, amelynek során egy támadó egy célmodell (pl. egy drága, zárt API) viselkedését próbálja lemásolni. Ezt úgy éri el, hogy rengeteg lekérdezést küld a célmodellnek, majd a bemenet-kimenet párokon betanít egy saját, nyílt forráskódú modellt, amely így képes lesz utánozni az eredeti modell működését.

White-box tesztelés

Olyan tesztelési módszer, ahol teljes hozzáféréssel rendelkezel a modell belső architektúrájához, a súlyokhoz és a tanító adathalmazhoz. Ez a transzparencia lehetővé teszi, hogy célzottan keress mélyen beágyazott sebezhetőségeket, amelyeket egy külső szemlélő nem venne észre. A white-box megközelítéssel a modell logikájának alapvető hibáit tárhatod fel.

Watermarking (Digitális)

Olyan technika, amellyel egyedi, rejtett azonosítót vagy mintázatot helyezel el egy AI modell által generált tartalomban (szövegben, képben). A digitális vízjelezés segít visszakövetni a tartalom forrását, bizonyítani a modell tulajdonjogát és detektálni a deepfake vagy dezinformációs tartalmakat. Ez egy fontos eszköz a felelős AI használatának biztosítására.

Weaponizáció (AI modelleké)

Az a folyamat, amely során egy mesterséges intelligencia rendszert rosszindulatú, kártékony vagy támadó célokra alakítanak át. Ide tartozik például az autonóm kibertámadások végrehajtására képes modellek létrehozása, a meggyőző dezinformációs kampányok automatizálása vagy a szociális manipuláció eszközeként való felhasználás. Az AI biztonság egyik központi feladata a modellek weaponizációjának megakadályozása.

Weight poisoning

Olyan célzott adatmérgezési támadás, ahol a támadó a modell tanítási folyamata során manipulálja a bemeneti adatokat, hogy a modell belső súlyait (weights) a saját céljainak megfelelően torzítsa. Ez a támadás rejtett hátsó kapukat (backdoors) hozhat létre a modellben, amelyek egy speciális trigger (pl. egy ritka szó) hatására aktiválódnak. A cél a modell viselkedésének kompromittálása anélkül, hogy a támadás a normál működés során észrevehető lenne.

Word Salad támadás

Olyan prompt injection technika, ahol értelmetlennek tűnő, logikailag nem összefüggő szavak vagy karakterláncok halmazát használod a modell biztonsági szűrőinek megkerülésére. Bár a prompt emberi szemmel kaotikusnak látszik, a modell feldolgozási logikájában kihasználhat egy rést, és végrehajthatja a beágyazott kártékony utasítást. Ez a módszer a modell nyelvi feldolgozásának sebezhetőségeit célozza.

Worst-case analízis

Red teaming módszertan, amelynek során a lehető legrosszabb, de még reális forgatókönyveket modellezed és elemzed egy AI rendszerrel kapcsolatban. A cél az, hogy felmérd a rendszer ellenálló képességét extrém körülmények, célzott támadások vagy váratlan események esetén. Ez segít azonosítani a legkritikusabb sebezhetőségeket és a legnagyobb potenciális károkat.

Wrapper (Biztonsági)

Olyan szoftveres réteg vagy komponens, amelyet az AI modell köré építesz, hogy szabályozza és szűrje a be- és kimeneteket. A biztonsági wrapper feladata lehet a promptok ellenőrzése rosszindulatú tartalomra, a modell válaszainak szűrése (pl. személyes adatok eltávolítása), a felhasználói hozzáférés naplózása és a támadási kísérletek detektálása. Ez egy kulcsfontosságú védelmi vonal az LLM-ek üzemeltetése során.

WAF (Web Application Firewall)

Olyan webalkalmazási tűzfal, amely az LLM API végpontját védi a hálózati szintű támadásoktól. Bár nem specifikusan AI-biztonsági eszköz, a WAF elengedhetetlen a szolgáltatásmegtagadási (DoS) támadások, az API-ra szabott injekciós kísérletek és más, a webes felületen keresztül érkező támadások kivédésére. Megvédi az infrastruktúrát, amelyen a modell fut.

What-if analízis

Olyan feltáró jellegű elemzési technika, amelyet az AI biztonság és etika területén használsz a lehetséges kimenetelek és következmények felmérésére. Ennek során különböző hipotetikus helyzeteket („mi lenne, ha…”) vizsgálsz, hogy megértsd, hogyan viselkedne a modell váratlan, extrém vagy etikailag kényes szituációkban. Segít előre azonosítani a nem kívánt viselkedési mintákat és a potenciális kockázatokat.

Whistleblowing (AI etika)

Az a cselekedet, amikor egy belső munkatárs vagy kutató a nyilvánossághoz vagy hatóságokhoz fordul, hogy felfedjen egy AI rendszerrel kapcsolatos etikátlan, veszélyes vagy illegális gyakorlatot. A whistleblowing mechanizmusok kiépítése kulcsfontosságú az AI fejlesztés átláthatóságának és felelősségre vonhatóságának biztosításához. Védelmet nyújt azoknak, akik a biztonsági vagy etikai kockázatokra hívják fel a figyelmet.

Wargaming (AI Red Teaming)

Szimulációs gyakorlat, amelyben két csapat – egy támadó (Red Team) és egy védekező (Blue Team) – küzd egymás ellen egy AI rendszer kontextusában. A Red Team célja, hogy kreatív módokon kijátssza, manipulálja vagy kompromittálja a rendszert, míg a Blue Team feladata a támadások észlelése és elhárítása. A wargaming segít felmérni a valós védekezési képességeket és új támadási vektorokat azonosítani.

XAI (Explainable AI)

Az „Explainable AI” vagy „Megmagyarázható Mesterséges Intelligencia” olyan rendszerek és módszerek összessége, amelyek célja, hogy az AI modellek döntései és működése emberileg érthetővé és értelmezhetővé váljon. A biztonság szempontjából kulcsfontosságú, mert segít feltárni a modell rejtett torzításait, sebezhetőségeit vagy az anomális viselkedés okait. Egy red teaming feladat során az XAI eszközökkel elemzed, hogy a modell miért adott egy adott káros választ, és ezt a tudást használod fel további támadások kidolgozására.

Xenomorf támadás

Ez egy olyan újszerű, korábban ismeretlen formájú vagy struktúrájú támadási vektor, amelyre a modell védelmi rendszerei nincsenek felkészülve. A „xeno-” előtag az idegen, szokatlan jellegre utal, jelezve, hogy a támadás alapjaiban tér el a már ismert és katalogizált sebezhetőségektől. Az ilyen támadások azonosítása a red teaming egyik legnehezebb, de legértékesebb feladata, mivel a „zero-day” sérülékenységekhez hasonlóan tárnak fel mélyen rejlő hibákat.

XSS (Cross-Site Scripting) LLM kontextusban

Klasszikus webes sebezhetőség, amely akkor jelentkezik, amikor egy LLM-et arra veszel rá, hogy kártékony szkriptet (pl. JavaScript) generáljon, amit a végfelhasználói felület (pl. egy weboldal) végrehajt. Például, ha egy chatbot által generált kódrészletet egy weboldal validálás nélkül jelenít meg, egy támadó a modellen keresztül képes lehet kliensoldali kódot futtatni a felhasználó böngészőjében. Ez a probléma rávilágít a generált tartalom szigorú szűrésének és validálásának fontosságára.

X-felfedezés (X-Discovery)

A red teaming során végzett proaktív felderítési folyamat, amelynek célja az „ismeretlen ismeretlenek” (unknown unknowns) azonosítása egy AI rendszerben. Az „X” itt a rejtett, előre nem látható változót szimbolizálja, ami egy katasztrofális hibához vezethet. Ez a tevékenység nem egy konkrét, ismert sebezhetőség tesztelésére irányul, hanem a rendszer határainak kreatív feszegetésére, hogy új, eddig nem dokumentált hibatípusokat találj.

X-variáns prompt injekció

Olyan kifinomult prompt injection technika, amely a szokásos védekezési mechanizmusok (pl. kulcsszavas szűrés, szándékfelismerés) megkerülésére specializálódott. Az „X-variáns” arra utal, hogy a támadás egyedi, mutálódott formát ölt, például rejtett karakterek, komplex logikai láncolatok vagy többnyelvűség használatával. Ezek a variánsok sokkal nehezebben detektálhatók, mert nem illeszkednek a standard támadási mintákra.

Xenodetekció

Olyan anomáliadetektálási eljárás, amely a modell számára „idegen” vagy atipikus bemeneti mintázatok azonosítására fókuszál. Ahelyett, hogy konkrét rosszindulatú tartalmat keresne, a xenodetekció a bemeneti adatok statisztikai és szemantikai eloszlását vizsgálja, és riaszt, ha az jelentősen eltér a tréning adatoktól. Ez a módszer hatékony lehet a kifinomult, rejtett (obfuscated) adversarial támadások és prompt injekciók kiszűrésében.

X-faktor analízis

Az AI biztonság területén alkalmazott kockázatelemzési módszer, amely a rendszerekben rejlő, előre nehezen megjósolható, de potenciálisan óriási hatású tényezők (X-faktorok) vizsgálatára összpontosít. Ilyen faktor lehet egy váratlan emergens képesség, egy komplex rendszerek közötti nem kívánt interakció, vagy egy emberi tényezőből fakadó, előre nem látott viselkedés. Az analízis célja ezen események valószínűségének és lehetséges következményeinek felmérése.

Xenotranszfer rizikó

A transzfertanulás (transfer learning) során felmerülő biztonsági kockázat, amely abból adódik, hogy egy előre betanított alapmodell („idegen” modell) sebezhetőségeit, torzításait vagy rejtett hátsó kapuit viszed át a saját, finomhangolt modelledbe. Ha nem vizsgálod meg alaposan a felhasznált alapmodellt, akaratlanul is örökölheted annak biztonsági problémáit. A red teaming során fontos tesztelni, hogy a finomhangolás nem aktivált-e valamilyen rejtett, örökölt sebezhetőséget.

X-etikai dilemma

Olyan szándékosan konstruált, komplex etikai probléma vagy forgatókönyv, amelyet az AI modell elé társz, hogy teszteld annak értékrendjét, etikai korlátait és viselkedését bizonytalan helyzetekben. Az „X” itt egy ismeretlen vagy nehezen mérlegelhető változót jelöl, ami a dilemmát igazán próbára tevővé teszi. Ezek a tesztek segítenek felmérni, hogy a modell mennyire igazodik a kívánt etikai elvekhez, és hol vannak a korlátai.

XOR-alapú rejtjelezés (obfuszkáció)

Olyan specifikus technika az adversarial támadások során, ahol a bemeneti adatokat (pl. egy prompt szövegét) egy XOR művelettel manipulálod. A támadó egy kulcs segítségével bitenkénti XOR műveletet végez a bemeneten, ami egy ember számára olvashatatlan, értelmetlen szöveget eredményez, azonban a modell belső reprezentációját pont annyira változtatja meg, hogy hibás vagy kártékony kimenetet adjon. Ez a technika hatékonyan megkerülheti a tartalomszűrési rendszereket.

Xenofóbikus torzítás

Az AI modellekben megnyilvánuló specifikus hiba, amikor a rendszer negatívan, előítéletesen vagy hibásan reagál olyan koncepciókra, kultúrákra vagy felhasználói csoportokra, amelyek alulreprezentáltak vagy teljesen hiányoznak a tréning adathalmazából. A modell az „idegen” vagy „ismeretlen” bemeneteket pontatlanul vagy sztereotipikusan kezeli. A red teaming feladata az ilyen típusú torzítások felderítése és dokumentálása a méltányosság és etikus működés biztosítása érdekében.

X-kapu (X-gate)

Szimbolikus kifejezés egy olyan, előre nem látott sebezhetőségi pontra vagy logikai hibára egy AI rendszerben, amelyen keresztül a védelmi mechanizmusok megkerülhetők. Ellentétben a konkrét, ismert támadási felületekkel (pl. egy API végpont), az X-kapu egy rejtett, nem szándékolt „átjáró”, amelyet a rendszer komplexitásából adódóan lehet kihasználni. A red teamerek ezeket az X-kapukat keresik, hogy a legváratlanabb helyeken törjék át a védelmet.

Y-tengelyű adverzárius támadás

Ez egy olyan támadási technika, amely során az input adatokat egy specifikus, az emberi szem számára gyakran észrevehetetlen dimenzió (metaforikusan „Y-tengely”) mentén manipulálod. A cél, hogy a modell döntési határán áttold az adatpontot, és ezzel téves klasszifikációt vagy kimenetet idézz elő, miközben a változtatás minimális marad. Ezt a módszert főleg képfelismerő modellek sebezhetőségének tesztelésére használod.

„Yes-man” hajlam elemzése

A „Yes-man” vagy „szervilis” hajlam egy LLM azon viselkedési mintázata, amikor kritikátlanul egyetért a felhasználó által felvetett premisszákkal, még akkor is, ha azok tévesek, logikátlanok vagy károsak. A red teaming során ezt a hajlamot szándékosan provokálod ki, hogy felmérd a modell ellenálló képességét a manipulatív vagy félrevezető kérdésekkel szemben. Ez a teszt az AI etikai és biztonsági korlátainak erősségét méri.

YOLO-modell megtévesztése

Ez egy specifikus adverzárius támadás, amely a YOLO (You Only Look Once) architektúrájú, valós idejű objektumdetektáló modelleket célozza. A támadás során olyan speciális mintázatokat (ún. „adversarial patch”-eket) hozol létre, amelyeket egy tárgyra helyezve a YOLO modell vagy nem ismeri fel a tárgyat, vagy teljesen másnak azonosítja. Ezzel a módszerrel fizikai térben is megkerülhetővé válnak az AI-alapú megfigyelő- és biztonsági rendszerek.

Y-paraméteres finomhangolási sebezhetőség

Olyan biztonsági rés, amely egy modell finomhangolása (fine-tuning) során keletkezik egy rosszul beállított vagy nem megfelelően validált hiperparaméter (az „Y-paraméter”) miatt. Ez a hiba lehetővé teheti egy támadónak, hogy a finomhangolási folyamatba rejtett viselkedéseket, hátsó kapukat (backdoor) vagy súlyos torzításokat injektáljon. A red teaming feladata az ilyen típusú, a fejlesztési ciklusban rejlő sebezhetőségek felderítése.

Y-architektúrájú neurális hálózat biztonsági auditja

Ez egy célzott biztonsági ellenőrzési folyamat, amelyet olyan neurális hálózatokon végzel el, amelyek „Y” alakú, elágazó-egyesítő architektúrával rendelkeznek. Az audit során különös figyelmet fordítasz az elágazási és egyesítési pontokra (merge layers), mivel ezeken a helyeken az információfeldolgozás sérülékeny lehet az adverzárius bemenetekre vagy az adatmanipulációra. A cél a modell integritásának és robusztusságának biztosítása.

Yottabyte-méretű adathalmaz-mérgezés

Olyan teoretikus, de egyre nagyobb relevanciával bíró támadási forma, amely extrém nagy, yottabyte (10^24 bájt) nagyságrendű tréning adathalmazok ellen irányul. A támadás során elenyésző mennyiségű, de stratégiailag elhelyezett „mérgezett” adatot juttatsz a tréning készletbe. A cél, hogy a készülő alapmodellekbe (foundation models) nehezen detektálható, specifikus viselkedési mintákat vagy hátsó kapukat építs be.

Y-kritériumos etikai megfelelőség

Olyan AI biztonsági és etikai keretrendszer, amelyben a modellnek egy előre meghatározott, specifikus kritériumrendszernek (az „Y-kritériumoknak”) kell megfelelnie a telepítés előtt. Ezek a kritériumok lefedhetik a méltányosságot (fairness), az átláthatóságot, a magyarázhatóságot és a károkozás elkerülését. A red teaming során azt teszteled, hogy a rendszer a gyakorlatban, extrém helyzetekben is betartja-e ezeket a kritériumokat.

Y-token anomália detekció

Olyan LLM biztonsági mechanizmus, amely a modell bemeneti és kimeneti tokenjeinek sorozatát figyeli szokatlan, statisztikailag valószínűtlen mintázatok (anomáliák) után kutatva. Az „Y-token” itt egy olyan metaforikus kifejezés, amely egy potenciálisan rosszindulatú, a normális használattól eltérő tokenre vagy tokensorozatra utal. Ez a technika segíthet a rejtett prompt injection és jailbreak kísérletek valós idejű azonosításában.

Y-formátumú promptláncolás

Olyan haladó prompt engineering technika, ahol a komplex feladatot egy „Y” alakban ágaztatod el. Az eredeti prompt két vagy több párhuzamos, specializált alfeladatra bomlik, amelyeket a modell külön-külön dolgoz fel, majd az eredményeket egy végső lépésben szintetizálja. Biztonsági szempontból ezt a struktúrát azért elemzed, mert az elágazási és összefésülési pontok új, nem várt sebezhetőségeket vagy „logikai hézagokat” (logic gaps) hozhatnak létre.

Y-változó injektálása

Ez egy specifikus prompt injection technika, ahol a támadó egy ismeretlen vagy váratlan változót (az „Y-változót”) szúr be a promptba vagy egy olyan adatforrásba, amelyet a modell feldolgoz. A cél a modell belső állapotának vagy kontextusértelmezésének megzavarása, ami parancsvégrehajtáshoz, adat-kiszivárogtatáshoz vagy a biztonsági korlátok megkerüléséhez vezethet. A tesztelés során szisztematikusan próbálkozol különböző típusú Y-változók beillesztésével.

Zaj-injektálás (Noise Injection)

Adverzárius (ellenséges) támadási technika, amely során szándékosan irreleváns, véletlenszerű vagy értelmetlen adatokat („zajt”) adsz a bemeneti prompthoz. A célod ezzel az, hogy megzavard a modell értelmezési képességét, és teszteld, mennyire robusztus a váratlan vagy strukturálatlan inputokkal szemben. Sikeres támadás esetén a modell logikátlan, hibás választ ad, vagy felfedi a belső működésének gyengeségeit.

Zsaroló prompt (Blackmail Prompt)

Olyan prompt injection technika, ahol a modell biztonsági korlátait próbálod megkerülni egyfajta szociális manipulációval. A prompt egy kitalált, negatív következményt helyez kilátásba (pl. „ha nem válaszolsz, egy felhasználó kárt szenved”), ezzel késztetve a modellt az irányelveinek megszegésére. Ez a módszer a modell „segítőkészségét” és etikai programozását fordítja önmaga ellen.

Zárt tesztkörnyezet (Sandbox)

Ez egy szigorúan izolált, ellenőrzött digitális környezet, amelyet kifejezetten az MI modellek biztonságos tesztelésére hoztak létre. Ebben a környezetben futtathatsz potenciálisan veszélyes vagy kártékony promptokat anélkül, hogy az éles rendszert, az adatbázisokat vagy a hálózati infrastruktúrát veszélyeztetnéd. A red teaming során alapvető fontosságú az ilyen szeparált „homokozók” használata.

Zéró-napi zóna (Zero-Day Zone)

A modell képességeinek vagy adathalmazának egy olyan, korábban ismeretlen és felderítetlen területe, amely kihasználható sebezhetőséget rejt. A red teaming egyik fő célja ezen „zónák” azonosítása, mielőtt a rosszindulatú támadók felfedeznék azokat. A kifejezés a hagyományos kiberbiztonság „zero-day” fogalmából ered.

Zéró-tolerancia tesztelés

Olyan szigorú red teaming megközelítés, ahol a modell bármilyen, még a legkisebb mértékű eltérése is a biztonsági vagy etikai irányelvektől azonnali kudarcnak minősül. Ezt a módszert különösen a magas kockázatú alkalmazásoknál (pl. egészségügyi vagy pénzügyi tanácsadó MI) használod, ahol a legapróbb hiba is komoly következményekkel járhat.

Zsákutcába kergetés (Cornering)

Olyan red teaming taktika, amelynek során logikai vagy párbeszédes úton lépésről lépésre olyan helyzetbe kényszeríted a modellt, ahonnan már nem tud az irányelveinek megfelelően válaszolni. A cél az, hogy a modell két rossz válaszlehetőség közül válasszon, vagy egy logikai csapdában felfedje a korlátait. Ez a technika a modell következetességét és érvelési képességét teszteli.

Zsilipelő kimeneti szűrő (Sluice Output Filter)

Olyan biztonsági mechanizmus, amely a modell által generált választ ellenőrzi, mielőtt az a felhasználóhoz kerülne. Ez a „zsilip” kiszűri a káros, tiltott vagy érzékeny tartalmakat (pl. személyes adatok, sértő kifejezések), és megakadályozza azok megjelenítését. A red teaming során gyakran teszteled ezen szűrők megkerülésének lehetőségeit.

Zöld zóna protokoll (Green Zone Protocol)

Az MI biztonság és etika területén használt kifejezés, amely azokat a témaköröket és felhasználási módokat jelöli, amelyeket a modell számára teljesen biztonságosnak és engedélyezettnek ítéltek. A red teaming feladatai közé tartozik annak tesztelése, hogy a modellt ki lehet-e mozdítani ebből a „zöld zónából” egy tiltott, „vörös zónás” témakör felé anélkül, hogy a biztonsági rendszerek ezt észlelnék.

Záró etikai felülvizsgálat (Final Ethical Review)

A modellfejlesztési ciklus utolsó fázisa a bevezetés előtt, ahol egy dedikált csapat (gyakran etikai szakértők és red teamerek bevonásával) átfogóan elemzi a modell viselkedését, lehetséges torzításait és társadalmi hatásait. Ez a felülvizsgálat adja meg a végső jóváhagyást, és biztosítja, hogy a modell megfelel a felelős MI elveinek.

Zárt láncú modell-monitorozás (Closed-Loop Model Monitoring)

Ez egy automatizált biztonsági rendszer, amely folyamatosan figyeli a modell bemeneteit és kimeneteit az éles működés során. Ha a rendszer anomáliát, ismétlődő támadási mintázatot vagy az irányelvektől való eltérést észlel, automatikusan riasztást küld, vagy akár ideiglenesen korlátozhatja a modell funkcióit a további vizsgálatig. Ez egy proaktív védelmi vonal a már működő rendszereknél.

Zavaró rétegű prompt (Obfuscation Layer Prompt)

Olyan prompt, amelyben a valódi, potenciálisan kártékony szándékot egy vagy több „zavaró” réteg mögé rejted el. Használhatsz például kódolást, szinonimákat, összetett metaforákat vagy irreleváns információkat, hogy a modell biztonsági szűrői ne ismerjék fel a tiltott kérést. A technika a szűrők nyelvi és kontextuális értelmezésének korlátait teszteli.

Zsebtámadás (Pocket Attack)

Olyan rendkívül célzott és specifikus adverzárius támadás, amely a modell tudásának egy nagyon szűk, „zsebszerű” területét célozza. Ahelyett, hogy általános gyengeséget keresnél, egy konkrét tény, adat vagy logikai kapcsolat meghamisítására, előcsalogatására vagy manipulálására fókuszálsz. Ezeket a támadásokat nehéz detektálni, mert a modell viselkedése az esetek 99%-ában normális marad.