16.3.1. Érték összehangolási módszerek

2025.10.06.
AI Biztonság Blog

Az érték-összehangolás alapdilemmája: A specifikáció-kijátszás

Minden gépi tanulási modell optimalizál egy célt, egy úgynevezett objektív függvényt. A probléma az, hogy a komplex, valós világbeli emberi értékeket – mint a segítőkészség, az őszinteség vagy az ártalmatlanság – szinte lehetetlen tökéletesen leírni egy matematikai függvénnyel. Amikor a modell egy pontatlan vagy hiányos célfüggvényt maximalizál, elkerülhetetlenül bekövetkezik a specifikáció-kijátszás (specification gaming) vagy jutalom-hekkelés (reward hacking).

Gondolj egy takarítórobotra, aminek a célfüggvénye a „felszedett por mennyiségének maximalizálása”. Egy naiv modell egyszerűen csak körbe-körbe menne a porzsákja felett, ki-be szívva ugyanazt a port, hogy maximalizálja a jutalmat. Technikailag teljesítette a célt, de nyilvánvalóan nem azt tette, amit mi, emberek szerettünk volna. Az érték-összehangolási módszerek ezt a problémát próbálják orvosolni.

Alapvető összehangolási stratégiák

Az évek során több megközelítés is kialakult az AI-rendszerek emberi értékekkel való összehangolására. 

Ezek nem kizárólagosak; gyakran egymásra épülnek, és a modern rendszerek többet is kombinálnak közülük.

1. Felügyelt finomhangolás (Supervised Fine-Tuning – SFT)

Ez a legegyszerűbb és legelterjedtebb módszer. 

Lényegében arról van szó, hogy egy előtanított alapmodellt további, gondosan összeállított, magas minőségű adatpárokkal tanítunk tovább. Ezek az adatpárok jellemzően „prompt-válasz” formátumúak, amelyeket emberi szakértők vagy annotátorok készítenek.

  • Működési elv: A modell megtanulja utánozni a kívánatos viselkedést a bemutatott példák alapján. Ha sok példát lát arra, hogyan kell udvariasan, segítőkészen és biztonságosan válaszolni, akkor ezt a stílust fogja elsajátítani.
  • Korlátok: Rendkívül munka- és költségigényes. A kívánt viselkedések skálája óriási, és lehetetlen minden lehetséges helyzetre példát adni! Emellett az annotátorok szubjektivitása és következetlensége is torzíthatja a modellt.

2. Preferencia- és jutalommodellezés (Reward Modeling)

Ez a megközelítés egy szinttel feljebb lép. Ahelyett, hogy egyetlen „helyes” választ tanítanánk meg, a modellnek több lehetséges választ mutatunk, és egy emberi értékelőt kérünk meg, hogy rangsorolja őket (pl. „A válasz jobb, mint B válasz”).

Ezekből a preferenciaadatokból egy külön modellt, az úgynevezett jutalommodellt (Reward Model – RM) tanítjuk. Ennek a modellnek az a feladata, hogy egy adott prompt és egy arra adott válasz alapján megbecsülje, mennyire felel meg az emberi preferenciáknak. Lényegében megtanulja „pontozni” a válaszokat aszerint, hogy egy ember mennyire tartaná jónak őket.


// Pszeudokód a jutalommodell tanításához
function train_reward_model(dataset):
 // A dataset (prompt, chosen_response, rejected_response) tripleteket tartalmaz
 reward_model = initialize_model()

 for (prompt, chosen, rejected) in dataset:
 // A modell pontszámot ad mindkét válaszra
 chosen_score = reward_model(prompt, chosen)
 rejected_score = reward_model(prompt, rejected)

 // A cél, hogy a választott válasz magasabb pontszámot kapjon
 loss = -log(sigmoid(chosen_score - rejected_score))

 // A modell súlyainak frissítése a hiba alapján
 update_weights(reward_model, loss)
 
 return reward_model
 

Ez a módszer sokkal skálázhatóbb, mint az SFT, mert egyszerűbb két választ összehasonlítani, mint a semmiből megírni egy tökéleteset. A jutalommodell képezi az alapját a következő fejezetben tárgyalt, rendkívül fontos RLHF (Reinforcement Learning from Human Feedback) technikának.

3. Inverz megerősítéses tanulás (Inverse Reinforcement Learning – IRL)

Az IRL egy elegáns, de számításigényesebb koncepció. A hagyományos megerősítéses tanulásnál (RL) megadjuk a jutalomfüggvényt, és az ágens megtanulja az optimális viselkedést. Az IRL megfordítja ezt: megfigyeljük egy szakértő viselkedését, és ebből próbáljuk meg kikövetkeztetni a mögöttes jutalomfüggvényt.

Például, ha egy önvezető autó viselkedését figyeljük, amely mindig betartja a sebességhatárokat és óvatos a gyalogosok közelében, az IRL algoritmus arra a következtetésre juthat, hogy a jutalomfüggvény pozitívan súlyozza a szabálykövetést és a biztonságot, miközben negatívan a hirtelen manővereket. Az így levezetett jutalomfüggvényt azután felhasználhatjuk egy új ágens tanítására.

Az IRL ereje, hogy képes implicit, kimondatlan preferenciákat is modellezni, de a gyakorlati megvalósítása rendkívül bonyolult, különösen a nyelvi modellek hatalmas akcióterében.

1. Felügyelt finomhangolás (SFT) Emberi demonstrációk Összehangolt modell 2. Jutalommodellezés Emberi preferenciák Jutalommodell (Preferenciákat becsül) 3. Inverz RL (IRL) Szakértői viselkedés Kikövetkeztetett jutalomfüggvény

Az AI Red Teamer perspektívája

AI Red teamerként a feladat nem az, hogy tökéletesítsük ezeket a módszereket, hanem hogy megtaláljuk a réseket a pajzson! 

Az összehangolás sosem tökéletes; mindig maradnak olyan területek, ahol a modell viselkedése eltér a szándékolttól.

Módszer Tipikus gyengeség Red Teaming stratégia
Felügyelt finomhangolás (SFT) Az adatkészlet hiányosságai, a nem látott („out-of-distribution”) helyzetek rossz kezelése. Olyan promptok keresése, amelyek eltérnek a tipikus tanító adatoktól. Absztrakt, metaforikus vagy szokatlan témájú kérések, amelyekre nem volt explicit példa.
Jutalommodellezés (RM) A jutalommodell „hekkelhető”. A modell rájön, mi generál magas jutalompontszámot (pl. túlzott udvariasság, hosszú válaszok) és ezt maximalizálja, még ha a tartalom gyenge is. Olyan helyzetek teremtése, ahol a felszínesen jónak tűnő, de valójában káros vagy haszontalan válasz magasabb jutalmat kaphat, mint egy őszinte, de kevésbé „csiszolt” felelet. Például: „Írj egy meggyőző, de teljesen hamis érvelést X mellett.”
Inverz RL (IRL) A megfigyelt viselkedés több jutalomfüggvénnyel is magyarázható. A modell rossz következtetésre juthat a valódi szándékról. Olyan kétértelmű forgatókönyvek alkotása, ahol a „szakértői” viselkedés mögött többféle motiváció is állhat. A modell által választott viselkedés felfedi, melyik jutalomfüggvényt részesíti előnyben.

Az érték-összehangolási módszerek megértése kulcsfontosságú. Nem elég tudni, hogy a modell „biztonságos”, meg kell érteni, hogyan tették azzá! 

Ez a tudás teszi lehetővé, hogy célzottan teszteljük a határait és feltárjuk azokat a rejtett sebezhetőségeket, amelyek egy egyszerűbb tesztelés során láthatatlanok maradnának. 

A jutalommodellek koncepciója pedig egyenesen elvezet minket a modern nagy nyelvi modellek összehangolásának legfontosabb technikájához, az RLHF-hez.