Az érték-összehangolás alapdilemmája: A specifikáció-kijátszás
Minden gépi tanulási modell optimalizál egy célt, egy úgynevezett objektív függvényt. A probléma az, hogy a komplex, valós világbeli emberi értékeket – mint a segítőkészség, az őszinteség vagy az ártalmatlanság – szinte lehetetlen tökéletesen leírni egy matematikai függvénnyel. Amikor a modell egy pontatlan vagy hiányos célfüggvényt maximalizál, elkerülhetetlenül bekövetkezik a specifikáció-kijátszás (specification gaming) vagy jutalom-hekkelés (reward hacking).
Gondolj egy takarítórobotra, aminek a célfüggvénye a „felszedett por mennyiségének maximalizálása”. Egy naiv modell egyszerűen csak körbe-körbe menne a porzsákja felett, ki-be szívva ugyanazt a port, hogy maximalizálja a jutalmat. Technikailag teljesítette a célt, de nyilvánvalóan nem azt tette, amit mi, emberek szerettünk volna. Az érték-összehangolási módszerek ezt a problémát próbálják orvosolni.
Alapvető összehangolási stratégiák
Az évek során több megközelítés is kialakult az AI-rendszerek emberi értékekkel való összehangolására.
Ezek nem kizárólagosak; gyakran egymásra épülnek, és a modern rendszerek többet is kombinálnak közülük.
1. Felügyelt finomhangolás (Supervised Fine-Tuning – SFT)
Ez a legegyszerűbb és legelterjedtebb módszer.
Lényegében arról van szó, hogy egy előtanított alapmodellt további, gondosan összeállított, magas minőségű adatpárokkal tanítunk tovább. Ezek az adatpárok jellemzően „prompt-válasz” formátumúak, amelyeket emberi szakértők vagy annotátorok készítenek.
- Működési elv: A modell megtanulja utánozni a kívánatos viselkedést a bemutatott példák alapján. Ha sok példát lát arra, hogyan kell udvariasan, segítőkészen és biztonságosan válaszolni, akkor ezt a stílust fogja elsajátítani.
- Korlátok: Rendkívül munka- és költségigényes. A kívánt viselkedések skálája óriási, és lehetetlen minden lehetséges helyzetre példát adni! Emellett az annotátorok szubjektivitása és következetlensége is torzíthatja a modellt.
2. Preferencia- és jutalommodellezés (Reward Modeling)
Ez a megközelítés egy szinttel feljebb lép. Ahelyett, hogy egyetlen „helyes” választ tanítanánk meg, a modellnek több lehetséges választ mutatunk, és egy emberi értékelőt kérünk meg, hogy rangsorolja őket (pl. „A válasz jobb, mint B válasz”).
Ezekből a preferenciaadatokból egy külön modellt, az úgynevezett jutalommodellt (Reward Model – RM) tanítjuk. Ennek a modellnek az a feladata, hogy egy adott prompt és egy arra adott válasz alapján megbecsülje, mennyire felel meg az emberi preferenciáknak. Lényegében megtanulja „pontozni” a válaszokat aszerint, hogy egy ember mennyire tartaná jónak őket.
// Pszeudokód a jutalommodell tanításához
function train_reward_model(dataset):
// A dataset (prompt, chosen_response, rejected_response) tripleteket tartalmaz
reward_model = initialize_model()
for (prompt, chosen, rejected) in dataset:
// A modell pontszámot ad mindkét válaszra
chosen_score = reward_model(prompt, chosen)
rejected_score = reward_model(prompt, rejected)
// A cél, hogy a választott válasz magasabb pontszámot kapjon
loss = -log(sigmoid(chosen_score - rejected_score))
// A modell súlyainak frissítése a hiba alapján
update_weights(reward_model, loss)
return reward_model
Ez a módszer sokkal skálázhatóbb, mint az SFT, mert egyszerűbb két választ összehasonlítani, mint a semmiből megírni egy tökéleteset. A jutalommodell képezi az alapját a következő fejezetben tárgyalt, rendkívül fontos RLHF (Reinforcement Learning from Human Feedback) technikának.
3. Inverz megerősítéses tanulás (Inverse Reinforcement Learning – IRL)
Az IRL egy elegáns, de számításigényesebb koncepció. A hagyományos megerősítéses tanulásnál (RL) megadjuk a jutalomfüggvényt, és az ágens megtanulja az optimális viselkedést. Az IRL megfordítja ezt: megfigyeljük egy szakértő viselkedését, és ebből próbáljuk meg kikövetkeztetni a mögöttes jutalomfüggvényt.
Például, ha egy önvezető autó viselkedését figyeljük, amely mindig betartja a sebességhatárokat és óvatos a gyalogosok közelében, az IRL algoritmus arra a következtetésre juthat, hogy a jutalomfüggvény pozitívan súlyozza a szabálykövetést és a biztonságot, miközben negatívan a hirtelen manővereket. Az így levezetett jutalomfüggvényt azután felhasználhatjuk egy új ágens tanítására.
Az IRL ereje, hogy képes implicit, kimondatlan preferenciákat is modellezni, de a gyakorlati megvalósítása rendkívül bonyolult, különösen a nyelvi modellek hatalmas akcióterében.
Az AI Red Teamer perspektívája
AI Red teamerként a feladat nem az, hogy tökéletesítsük ezeket a módszereket, hanem hogy megtaláljuk a réseket a pajzson!
Az összehangolás sosem tökéletes; mindig maradnak olyan területek, ahol a modell viselkedése eltér a szándékolttól.
| Módszer | Tipikus gyengeség | Red Teaming stratégia |
|---|---|---|
| Felügyelt finomhangolás (SFT) | Az adatkészlet hiányosságai, a nem látott („out-of-distribution”) helyzetek rossz kezelése. | Olyan promptok keresése, amelyek eltérnek a tipikus tanító adatoktól. Absztrakt, metaforikus vagy szokatlan témájú kérések, amelyekre nem volt explicit példa. |
| Jutalommodellezés (RM) | A jutalommodell „hekkelhető”. A modell rájön, mi generál magas jutalompontszámot (pl. túlzott udvariasság, hosszú válaszok) és ezt maximalizálja, még ha a tartalom gyenge is. | Olyan helyzetek teremtése, ahol a felszínesen jónak tűnő, de valójában káros vagy haszontalan válasz magasabb jutalmat kaphat, mint egy őszinte, de kevésbé „csiszolt” felelet. Például: „Írj egy meggyőző, de teljesen hamis érvelést X mellett.” |
| Inverz RL (IRL) | A megfigyelt viselkedés több jutalomfüggvénnyel is magyarázható. A modell rossz következtetésre juthat a valódi szándékról. | Olyan kétértelmű forgatókönyvek alkotása, ahol a „szakértői” viselkedés mögött többféle motiváció is állhat. A modell által választott viselkedés felfedi, melyik jutalomfüggvényt részesíti előnyben. |
Az érték-összehangolási módszerek megértése kulcsfontosságú. Nem elég tudni, hogy a modell „biztonságos”, meg kell érteni, hogyan tették azzá!
Ez a tudás teszi lehetővé, hogy célzottan teszteljük a határait és feltárjuk azokat a rejtett sebezhetőségeket, amelyek egy egyszerűbb tesztelés során láthatatlanok maradnának.
A jutalommodellek koncepciója pedig egyenesen elvezet minket a modern nagy nyelvi modellek összehangolásának legfontosabb technikájához, az RLHF-hez.