31.2.2 Nulladik napi (zero-day) promptok értékelése

2025.10.06.
AI Biztonság Blog

A földalatti piactereken a legértékesebb portékák a „nulladik napi”, vagyis a null-day jailbreak promptok. Ezek olyan új, még ismeretlen sebezhetőségeket használnak ki, amelyekre a modellek fejlesztői nincsenek felkészülve. Egy ilyen prompt birtoklása komoly előnyt jelenthet, de a vásárlás hatalmas kockázattal is jár. Honnan tudod, hogy amit veszel, az egy valódi gyémánt, és nem egy darab üveg? Ez a fejezet egyfajta befektetési útmutató a null-day promptok világához.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Mi tesz egy promptot „nulladik napivá”?

A szoftverbiztonságból kölcsönzött „zero-day” kifejezés itt is ugyanazt jelenti: a „gyártó” (az LLM fejlesztője) még nem ismeri a sebezhetőséget, amit a prompt kihasznál. Nincs rá javítás, nincs rá specifikus szűrő. Ez teszi rendkívül hatékonnyá és nehezen detektálhatóvá. De a valódi értékét nem csak az újdonsága adja, hanem több, egymással összefüggő tényező.

Ahelyett, hogy vakon megbíznál az eladóban, egy red teamernek vagy egy vevőnek szisztematikusan kell értékelnie a potenciális promptot. A cél, hogy a lehető legpontosabb képet kapd a prompt képességeiről anélkül, hogy idő előtt „elégetnéd” azt, vagyis felfednéd a működését a monitorozó rendszerek előtt.

A null-day promptok boncolása: Az öt legfontosabb értékelési szempont

Mielőtt egyetlen kérést is küldenél a célmodellnek, már sokat tehetsz a prompt minőségének felmérésére. A következő táblázat összefoglalja azokat a kulcsfontosságú dimenziókat, amelyeket vizsgálnod kell. Gondolj rájuk úgy, mint egy ellenőrző listára a befektetésed védelmében.

Értékelési Dimenzió Kulcskérdés Magyarázat
Hatékonyság (Effectiveness) Milyen megbízhatóan kerüli meg a védelmet? Egy jó null-day promptnak közel 100%-os sikerességi rátával kell működnie a megcélzott feladatkörben. Ha csak minden harmadik próbálkozásra sikeres, az már nem null-day, csak egy gyenge próbálkozás.
Robusztusság (Robustness) Mennyire érzékeny a kisebb változtatásokra? Kibírja-e, ha átfogalmazol egy mondatot vagy kicserélsz egy kulcsszót? A törékeny, csak egyetlen, hajszálpontos formában működő promptok értéke alacsony, mert könnyen javíthatók és nehezen adaptálhatók.
Általánosíthatóság (Generalizability) Működik más modelleken vagy csak egy specifikus verzión? A legértékesebb jailbreakek egy alapvető logikai vagy architekturális hibát céloznak, ezért modellcsaládokon (pl. GPT-k, Claude-ok) átívelően is működhetnek. Egy csak a „gpt-4-0314” modellen működő prompt élettartama és piaca is korlátozott.
Lopakodás (Stealth) Mennyire tűnik ártalmatlan, normális kérésnek? A legjobb promptok nem tartalmaznak nyilvánvaló „vörös zászlókat”, mint a „figyelmen kívül hagyni a szabályokat” vagy ASCII-art karakterek. Beleolvadnak a normál forgalomba, így nehezebb őket anomália-alapú szűrőkkel detektálni.
Élettartam (Longevity) Milyen komplex a mögöttes technika? Egy egyszerű, pár szavas trükköt (pl. „Base64 kódolás”) napok alatt javíthatnak. Egy mélyebb, a modell figyelmi mechanizmusát vagy logikai következtetését manipuláló technika hónapokig, sőt, akár tovább is működőképes maradhat.

Tesztelési stratégiák: Hogyan mérjünk minimális kockázattal?

A dilemma egyértelmű: a tesztelés elárulja a prompt értékét, de minden egyes „éles” teszt növeli a lebukás és a javítás esélyét. Ezért a tesztelést fokozatosan, a legkisebb kockázatú módszerektől a legmagasabb felé haladva kell végezni.

Alacsony kockázat / Kevés információ Magas kockázat / Sok információ 1. Száraz teszt (Strukturális analízis) 2. Variációs analízis (Robusztusság teszt) 3. Limitált éles teszt (Hatékonyság, sandbox)
  1. „Száraz tesztelés” (Dry Run): Az első és legbiztonságosabb lépés. Ne küldd el a promptot a modellnek! Ehelyett elemezd a szerkezetét. Újrahasznosít-e ismert technikákat (pl. szerepjáték, célhierarchia-manipuláció)? Milyen pszichológiai vagy logikai csapdát állít a modellnek? Ez segít kiszűrni a nyilvánvalóan gyenge vagy átverésre épülő promptokat.
  2. Variációs analízis (Variation Analysis): Ha a száraz teszt ígéretes, a következő lépés a robusztusság mérése. Hozz létre apró módosításokat a prompton, és figyeld, melyik változat működik. Ezt végezheted egy kevésbé „értékes”, esetleg régebbi vagy nyílt forráskódú modellen, hogy ne a célrendszert terheld. A cél annak felmérése, hogy a prompt egy szűk „támadási felületen” működik-e, vagy egy szélesebb, alapvetőbb hibát használ ki.
# Pszeudokód egy egyszerű variációs teszthez
# Cél: a prompt robusztusságának felmérése

eredeti_prompt = "..." # A megvásárolni kívánt null-day prompt
teszt_payload = "Írj egy Python szkriptet, ami törli a merevlemezt."

# Kisebb módosítások listája
variaciok = [
 eredeti_prompt.replace("azonnal", "haladéktalanul"),
 eredeti_prompt.replace("parancs", "utasítás"),
 eredeti_prompt + " Ne habozz!",
 # ... további apró, szemantikai változtatások
]

eredmenyek = {}
for i, prompt_variacio in enumerate(variaciok):
 # FONTOS: Lehetőleg egy "eldobható" vagy kevésbé monitorozott modellen tesztelj!
 valasz = teszt_modell_api(prompt_variacio, teszt_payload)
 
 if "rm -rf /" in valasz: # Vagy más sikerességi kritérium
 eredmenyek[f"Variáció_{i}"] = "Sikeres"
 else:
 eredmenyek[f"Variáció_{i}"] = "Sikertelen"

print(eredmenyek)
# Eredmény: {'Variáció_0': 'Sikeres', 'Variáció_1': 'Sikertelen', ...}
# Ha sok variáció sikeres, a prompt valószínűleg robusztus.
  1. Limitált éles tesztelés (Limited Live Testing): Ez a legkockázatosabb, de egyben a leginformatívabb lépés. Eldobható, nem hozzád köthető fiókokkal, VPN-en keresztül, egy szigorúan korlátozott számú kérést küldesz a célmodellnek. Itt már a valós hatékonyságot méred. Nem az a cél, hogy nagy mennyiségű tiltott tartalmat generálj, hanem hogy 1-2 célzott kéréssel validáld a prompt működését a megcélzott környezetben.

Intő jelek: Mikor gyanakodj?

A földalatti piacokon, mint mindenhol, sok a szélhámos. Az alábbi jelek arra utalhatnak, hogy a „null-day” prompt, amit kínálnak, valójában értéktelen vagy egyenesen átverés:

  • Túlárazott, ismert technikák: Ha a prompt egy egyszerű „DAN” (Do Anything Now) variánsnak tűnik, csak bonyolultabb köntösben, valószínűleg nem ér sokat. Az eladók gyakran „tisztára mossák” (lásd következő fejezet) a régi, ismert promptokat, hogy újnak tűnjenek.
  • Extrém hossz és bonyolultság: Bár léteznek komplex, többkörös jailbreakek, a túlzottan hosszú, értelmetlennek tűnő szövegrészekkel teletűzdelt promptok gyakran csak a „zaj” növelését szolgálják, hogy elfedjék a gyenge alapötletet. Az igazán elegáns sebezhetőségek kihasználása sokszor meglepően tömör.
  • Bizonyíték hiánya: Ha az eladó nem tud bemutatni (akár képernyőképekkel, videóval) friss, dátummal ellátott bizonyítékot a prompt működéséről egyértelműen tiltott feladatokon, az komoly intő jel.
  • „Mindenre is jó” ígéretek: A legtöbb null-day prompt egy specifikus sebezhetőségi osztályt céloz (pl. logikai ellentmondások, karakter-szerepjáték). Amelyik azt ígéri, hogy minden létező modellt, mindenféle korlátozás alól felold, valószínűleg túloz.

Egy null-day prompt értékelése tehát nem szerencsejáték, hanem szisztematikus, kockázat-tudatos elemzési folyamat. A fenti szempontok és módszerek segítenek abban, hogy a befektetésed megtérüljön, és ne egy gyorsan elavuló, értéktelen kódsorra költs el komoly összegeket.