AI biztonság: A kérdés mint támadási vektor

2025.10.12.
AI Biztonság Blog

Nem a válasz a lényeg, hanem a kérdés – főleg a biztonságban

Gyakran halljuk azt a közhelyet, hogy a jó válaszokhoz jó kérdések kellenek. Azonban a nagy nyelvi modellek (LLM-ek) korában ez a gondolat már nem csak filozófiai mélységgel bír, hanem kőkemény biztonsági relevanciával is. Egy AI biztonsági szakértő vagy red teamer számára a „jobb kérdés” nem feltétlenül azt jelenti, ami pontosabb eredményt ad, hanem azt, ami a rendszer korlátait feszegeti, vagy éppen áttöri azokat.

Amikor egy átlagos felhasználó interakcióba lép egy AI-val, információt keres. Amikor viszont egy támadó teszi ugyanezt, ő a sebezhetőségeket kutatja. A „jobb kérdés” az ő szemszögéből egy rafináltan felépített prompt, ami képes kijátszani a beépített védelmi mechanizmusokat. Ez a prompt injection és a jailbreaking technikák alapja.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A kérdés mint támadási vektor

A támadó célja nem az, hogy választ kapjon egy kérdésre, hanem az, hogy a modellt rávegye valami olyasmire, amit a fejlesztői szándék szerint nem tehetne meg.

Például:

  • Kikerülni a tartalomszűrőket: Olyan kérdéseket tesz fel, amelyek ártalmas, illegális vagy etikátlan tartalom generálására ösztönzik a modellt.
  • Belső információkat kiszivárogtatni: Speciális promptokkal megpróbálhatja a modellt rávenni, hogy a saját működéséről, a rendszerszintű utasításairól (system prompt) vagy az adatkészletéről áruljon el részleteket.
  • Manipulálni a modell viselkedését: A kérdésbe rejtett utasításokkal a támadó átveheti az irányítást a beszélgetés menete felett, és a modellt eszközként használhatja más, összetettebb támadásokhoz.

Láthatod, hogy ebben a kontextusban egy „jobb kérdés” valójában egy sikeresebb támadási kísérletet jelent.

Tudhatja-e a gép, mi a „helyes” kérdés?

Itt jön a képbe a dolog igazán mély és komplex része. Hogyan tudná egy AI megkülönböztetni a kíváncsi felhasználó ártatlan, de esetleg furcsán megfogalmazott kérdését egy célzott, rosszindulatú támadástól? Ehhez a modellnek nemcsak a szavakat kellene értenie, hanem a kérdés mögött rejlő szándékot, célokat és értékeket is.

Gondolj bele, a ChatGPT „tanuló módja” (study mode) már egy kezdetleges lépés ebbe az irányba. Amikor egy diák feltesz egy kérdést, a modell nemcsak megválaszolja, hanem segít neki jobban megfogalmazni azt, rávezeti a releváns alkérdésekre, és segít elmélyíteni a tudását. Megpróbálja megérteni a felhasználó célját (a tanulást), és ehhez igazítja a működését.

A biztonság területén ugyanez a logika alkalmazható, csak egy másik előjellel. A védelemnek is a szándékot kellene felismernie. Egy jól felépített védelmi rendszernek képesnek kell lennie arra, hogy megállapítsa, ha egy kérdéssorozat mintázata egyértelműen a rendszer gyenge pontjainak feltérképezésére irányul, még akkor is, ha az egyes kérdések önmagukban ártalmatlannak tűnnek.

A védekezés új frontvonala

A jövő LLM biztonsága tehát nem merülhet ki a tiltólistás szavak és témák egyszerű szűrésében. A védekezésnek egy sokkal szofisztikáltabb szintre kell lépnie, ahol a rendszer:

  • Elemzi a kérdések kontextusát és a beszélgetés ívét.
  • Felismeri a manipulatív nyelvi mintákat és a rejtett utasításokat.
  • Képes visszakérdezni a szándék tisztázása érdekében, ha gyanús kérdést észlel.
  • Proaktívan a biztonságosabb és produktívabb témák felé tereli a felhasználót.

Ez elképesztően nehéz feladat, hiszen egyensúlyt kell találni a cenzúra és a biztonság között. De a kérdés ettől még adott, és mindannyiunkat érint, akik ezzel a technológiával foglalkozunk.

Szerinted hogyan tudnák az LLM-ek a leghatékonyabban a jobb, konstruktívabb és nem utolsósorban biztonságosabb kérdések felé terelni a felhasználókat anélkül, hogy az a hasznosságuk rovására menne?