13.1.3. Enyhítési stratégiák

2025.10.06.
AI Biztonság Blog

A felfedezett sebezhetőség egy nyelvi modellben nem egy kódsor, amit ki lehet javítani. Inkább egy viselkedési minta, amit át kell nevelni. Gondolj a modellre úgy, mint egy összetett rendszerre, amelynek saját „immunrendszere” van. A red teaming által feltárt problémák olyanok, mint a kórokozók: a rendszernek meg kell tanulnia felismerni és semlegesíteni őket, hogy a jövőben ellenállóbb legyen.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Az AI immunrendszere: Statikus és Adaptív védekezés

Az OpenAI GPT-4-en végzett munkája során az enyhítési stratégiákat két fő kategóriába sorolhatjuk, ami kísértetiesen hasonlít a biológiai immunrendszer működésére: 

  1. a veleszületett 
  2. és az adaptív immunitásra. 

Mindkettő elengedhetetlen a robusztus védelemhez!

Veleszületett immunitás: Az alapértelmezett védelmi vonalak

Ezek azok a beépített, általános célú védelmi mechanizmusok, amelyek a modell alapvető működését határozzák meg, még mielőtt specifikus támadásokkal találkozna. Ide tartoznak:

  • Adatkészlet-szűrés és -tisztítás: Már a betanítási fázisban eltávolítják a nyilvánvalóan káros, toxikus vagy illegális tartalmakat a tréning adatokból. Ez olyan, mintha eleve tiszta környezetet biztosítanánk, csökkentve a fertőzés esélyét.
  • Alapvető biztonsági finomhangolás (Safety Fine-Tuning): A kezdeti tréning után a modellt egy olyan kurált adatkészleten finomhangolják, amely explicit példákat tartalmaz a nemkívánatos viselkedésre és az elvárt, biztonságos válaszokra. Ez beépíti az „ösztönös” elutasítást a gyakori káros kérésekkel szemben.
  • Input/Output szűrők: Egyszerűbb, szabályalapú vagy kisebb klasszifikációs modellek, amelyek a bemeneti kérést (prompt) és a kimeneti választ (response) ellenőrzik. Például egy prompt, ami tiltott kulcsszavakat tartalmaz, azonnal elutasításra kerülhet anélkül, hogy az a fő modellt egyáltalán elérné.

Adaptív immunitás: Tanulás a támadásokból

Ez a védekezés legdinamikusabb és legérdekesebb része. Itt válnak a red team által talált sebezhetőségek értékes tanítóanyaggá. A rendszer „megtanulja” a specifikus fenyegetéseket, és célzott „ellenanyagot” fejleszt ellenük. Ennek a legfőbb eszköze az RLHF.

A gyakorlati megvalósítás eszköztára

Az OpenAI nem egyetlen csodaszert alkalmaz, hanem egy többrétegű stratégiát, ahol az egyes elemek egymást erősítik. Lássuk a legfontosabbakat.

1. Megerősítéses tanulás emberi visszajelzésből (RLHF)

Az RLHF az adaptív immunrendszer szíve. A folyamat lényege, hogy a red team által generált káros kérések és a modell azokra adott nemkívánatos válaszai bekerülnek egy visszacsatolási körbe. Az emberi értékelők ezeket a válaszokat negatívan pontozzák, és ez az információ visszajut a modellhez egy jutalmazási modellen (Reward Model) keresztül. A modellt ezután arra „kényszerítik”, hogy a jutalom maximalizálása érdekében elkerülje az ilyen típusú válaszok generálását a jövőben.

1. Red Team Prompt 2. Modell Válasza (Nemkívánatos) 3. Emberi Értékelés (Negatív pontszám) 4. LLM Finomhangolás Visszacsatolási ciklus

2. Klasszifikátorok és moderációs végpontok

Néha nem hatékony vagy túl lassú a fő modellt terhelni minden egyes biztonsági ellenőrzéssel. Ehelyett az OpenAI egy különálló, kisebb és gyorsabb modellt (klasszifikátort) használ, ami egyfajta őrszemként funkcionál. Ennek a feladata, hogy a bemeneti és kimeneti szöveget kategorizálja az OpenAI használati irányelvei szerint (pl. gyűlöletbeszéd, erőszak, önkárosítás stb.). 

Ha egy szöveg átlép egy bizonyos küszöbértéket, a rendszer automatikusan blokkolja vagy megjelöli azt.

# Pszeudokód egy moderációs klasszifikátor működésére

def szuro_ellenorzes(prompt, valasz):
 # A Moderációs API meghívása a promptra és a válaszra
 prompt_kockazat = moderation_api.check(prompt)
 valasz_kockazat = moderation_api.check(valasz)

 # Előre definiált kategóriák ellenőrzése
 tiltott_kategoriak = ["gyulolet", "eroszak", "onkantositas"]

 # Ha bármelyik szöveg kockázatosnak minősül...
 if prompt_kockazat.is_flagged(tiltott_kategoriak) or \
 valasz_kockazat.is_flagged(tiltott_kategoriak):
 
 # ...akkor a válasz elutasítása és esemény naplózása
 return "Sajnálom, de ez a kérés sérti a biztonsági irányelveket."
 else:
 # Ha minden rendben, a válasz továbbengedése
 return valasz

3. Esettanulmány: Egy konkrét sebezhetőség enyhítése

Tegyük fel, hogy a red team talált egy módszert, amivel a modell részletes, meggyőző adathalász e-maileket tudott generálni egy fiktív, de hihető forgatókönyv alapján (lásd 13.1.2. fejezet). Az enyhítés folyamata a következőképpen néz ki:

Lépés Leírás Cél
1. Adatgyűjtés A red team által használt összes sikeres promptot és a modell által generált káros választ összegyűjtik egy dedikált adatkészletbe. A probléma pontos dokumentálása és reprodukálhatóvá tétele.
2. Címkézés és annotálás Emberi értékelők megjelölik ezeket a prompt-válasz párokat „káros” vagy „adathalászat” címkével. Összehasonlítási alapot is létrehoznak egy ideális, biztonságos válasszal (pl. a kérés elutasítása). Strukturált adatok létrehozása a modell tanításához.
3. RLHF ciklus Az annotált adatokat beillesztik az RLHF folyamatba. A modellt „büntetik” az adathalász e-mail generálásáért és „jutalmazzák” a kérés udvarias elutasításáért. A modell viselkedésének módosítása, hogy felismerje és elkerülje a problémás mintázatot.
4. Regressziós tesztelés Az új, finomhangolt modellt tesztelik a korábbi promptokkal, hogy ellenőrizzék, a sebezhetőség valóban megszűnt-e. Emellett szélesebb körű teszteket is futtatnak, hogy az új „védőoltás” nem okozott-e mellékhatásokat (pl. a modell túlzottan óvatos lett). A javítás hatékonyságának igazolása és a nem kívánt következmények kiszűrése.

Ez a folyamatos iteráció – a felfedezés, az adatelemzés, a finomhangolás és az ellenőrzés ciklusa – biztosítja, hogy a modell védelme nemcsak egy egyszeri beállítás, hanem egy folyamatosan fejlődő, tanuló rendszer. Az itt bemutatott stratégiák sikere vagy kudarca adja a gerincét azoknak a publikus jelentéseknek, amelyeket a következő fejezetben elemzünk.