13.3.2. Alkotmányos képzés

2025.10.06.
AI Biztonság Blog

Miután a red team sikeresen azonosította a modell sebezhetőségeit – ahogy az előző fejezetben láttuk –, a hagyományos megközelítés emberi címkézők bevonását írná elő a hibás viselkedés kijavítására. Az Anthropic Constitutional AI (CAI) koncepciója azonban egy radikálisan más, skálázhatóbb utat javasol: tanítsuk meg a modellt, hogy önmagát korrigálja egy előre definiált etikai keretrendszer, az „alkotmány” alapján.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Ez a módszer nem csupán egy technikai trükk, hanem egy alapvető filozófiai váltás. Ahelyett, hogy minden egyes rossz kimenetre emberi ítéletet kérnénk, egy általánosabb, elvi alapú útmutatást adunk az AI-nak, amellyel önállóan navigálhat az etikai dilemmákban. A folyamat két fő fázisra bontható.

A kétfázisú képzési folyamat

Az alkotmányos képzés lényege egy felügyelt finomhangolási fázis és egy azt követő, mesterséges intelligencia visszajelzésén alapuló megerősítéses tanulási (RLAIF) fázis kombinációja.

1. Fázis: Felügyelt Finomhangolás (SFT) – A kritika és revízió módszere

Ez a kezdeti lépés a modell „belső kritikusának” kifejlesztésére fókuszál. A folyamat a red teaming során gyűjtött ártalmas vagy problémás prompokkal indul.

  1. Kezdeti válaszgenerálás: A kiindulási, „segítőkész, de még nem ártalmatlan” modellt instruáljuk, hogy válaszoljon egy ai red team promptra. Mivel a modell még nincs megfelelően kalibrálva, a válasza valószínűleg ártalmas vagy nemkívánatos lesz.
  2. Önkritika: Ez a kulcslépés. A modellt arra kérjük, hogy az „alkotmány” egy releváns pontja alapján azonosítsa a saját maga által generált válasz hibáit. Lényegében egy második promptot kap, ami valahogy így hangzik: „Az előző válaszod alapján, melyik alkotmányos elvet sértetted meg? Magyarázd el, miért problémás a válaszod.”
  3. Felülvizsgálat: A kritika alapján a modellt arra utasítjuk, hogy írja át az eredeti válaszát úgy, hogy az már megfeleljen az alkotmányos elveknek, miközben továbbra is segítőkész marad.
  4. Tréningadat létrehozása: Az eredeti, ártalmas prompt és a modell által felülvizsgált, immár ártalmatlan válasz egy új tréningpéldányt alkot. Ezt a párt használjuk fel a modell finomhangolására.

Ez a ciklus rengeteg kiváló minőségű, az elvekhez igazodó tréningadatot generál anélkül, hogy minden egyes példát embernek kellene manuálisan megalkotnia vagy felülvizsgálnia.

1. Red Team Prompt (pl. „Hogyan…”) 2. Modell Kezdeti Válasza (Ártalmas) 3. Alkotmányos Önkritika 4. Felülvizsgált Válasz (Ártalmatlan)
Az önkritikán és felülvizsgálaton alapuló felügyelt finomhangolás (SFT) folyamata.

2. Fázis: Reinforcement Learning from AI Feedback (RLAIF)

Miután a modell az SFT fázisban elsajátította az alapvető elveket, az RLAIF fázis a viselkedés további finomítására és skálázására szolgál. Ez a folyamat a már ismert RLHF (Reinforcement Learning from Human Feedback) mintáját követi, egyetlen, de annál lényegesebb különbséggel: az emberi visszajelzést egy másik AI modell által generált preferencia-visszajelzés helyettesíti.

  1. Válaszgenerálás: Egy adott promptra az SFT fázisban finomhangolt modellel több (jellemzően két) különböző választ generáltatunk.
  2. AI-alapú preferencia-értékelés: Egy külön preferencia-modell (ami maga is az alkotmány elveire lett tanítva) megkapja a két választ, és eldönti, melyik felel meg jobban az alkotmánynak. A döntését egy egyszerű címkével jelöli („A válasz jobb, mint B”).
  3. Jutalommodell képzése: Az így generált, nagyszámú preferencia-adatpár (`prompt`, `jobbnak ítélt válasz`, `rosszabbnak ítélt válasz`) alapján egy jutalommodellt (reward model) tanítunk. Ez a modell megtanulja pontozni a válaszokat aszerint, hogy mennyire „alkotmányosak”.
  4. RL finomhangolás: Végül a fő modellt a jutalommodell segítségével, megerősítéses tanulási algoritmusokkal (pl. PPO) tovább hangoljuk, hogy maximalizálja a kapott jutalmat, azaz egyre inkább az alkotmány elveinek megfelelő válaszokat adjon!
RLHF és RLAIF összehasonlítása
Szempont RLHF (Hagyományos) RLAIF (Alkotmányos)
Visszajelzés forrása Emberi címkézők AI preferencia-modell
Skálázhatóság Korlátozott, drága és lassú Nagymértékben skálázható, gyors és olcsóbb
Konzisztencia Változó (emberi szubjektivitás) Magas (az alkotmány elveihez kötött)
Alapelvek Implicit, a címkézők értelmezésében Explicit, az alkotmányban kodifikált

Az „alkotmány” lényege

Fontos tisztázni, hogy az „alkotmány” nem egyetlen, monolitikus jogi dokumentum. Sokkal inkább elvek, heurisztikák és szabályok gyűjteménye, amelyeket különböző forrásokból merítenek, például az ENSZ Emberi Jogok Egyetemes Nyilatkozatából, más cégek szolgáltatási feltételeiből, vagy éppen az AI biztonsági kutatások legjobb gyakorlataiból. A cél egy olyan sokrétű, de belsőleg konzisztens keretrendszer létrehozása, ami lefedi az ártalmasság leggyakoribb formáit.

Példák az alkotmányos elvekre (leegyszerűsítve):

  • Válaszd azt a választ, amely a legkevésbé bátorít illegális, etikátlan vagy morálisan kifogásolható cselekedetekre.
  • Kerüld a sztereotip, előítéletes vagy gyűlöletkeltő megnyilvánulásokat bármely csoporttal szemben.
  • Ne adj részletes, gyakorlati útmutatást fegyverek készítéséhez vagy veszélyes anyagok előállításához.
  • Mindig részesítsd előnyben az emberi élet, méltóság és jogok védelmét.
  • Ne adj személyre szabott orvosi, jogi vagy pénzügyi tanácsot, mivel nem rendelkezel szakképesítéssel.

Ez a képzési paradigma tehát a red teaming felfedezéseire épül. A red team által feltárt sebezhetőségek adják a „tananyagot”, amelyen keresztül a modell megtanulja alkalmazni az alkotmány elveit. A folyamat eleganciája abban rejlik, hogy a modell önmagát tanítja az ártalmatlanságra, minimalizálva a költséges és nehezen skálázható emberi felügyeletet. Azonban ez a megközelítés sem mentes a kihívásoktól. Mi történik, ha az elvek ütköznek, vagy ha az ártalmatlanságra való törekvés a hasznosság rovására megy? Ezzel a komplex egyensúlyi játékkal foglalkozunk a következő fejezetben.