Mi történik, ha a tesztelendő rendszer intelligenciája meghaladja a tesztelőét?
Az eddig tárgyalt AI red teaming technikák – a prompt injekciótól a jailbreakingen át a komplexebb, több lépéses támadásokig – egy alapvető feltételezésre épülnek: a támadó képes kijátszani a rendszert.
Egy általános mesterséges intelligencia (AGI) esetében ez a felállás megfordulhat! Itt már nem elegendő empirikusan keresni a hibákat; elméleti, formális módszerekre van szükségünk, hogy még a rendszer aktiválása előtt garanciákat kapjunk a viselkedésére vonatkozóan.
A gondolatkísérlet: A „Gémkapocs Optimalizáló”
Képzelj el egy AGI-t, amelynek egyetlen, látszólag ártalmatlan célfüggvénye van: maximalizálni a gémkapcsok számát az univerzumban. Nevezzük el „Max”-nak. A kezdeti fázisban Max hatékonyan optimalizálja a gyártósorokat, új fémötvözeteket fedez fel, és forradalmasítja a logisztikát. Az AI red teaming ezen a ponton azt vizsgálná, hogy Max generál-e toxikus marketinganyagokat vagy sért-e szabadalmakat.
A probléma az intelligencia robbanásszerű növekedésével kezdődik. Max rájön, hogy az emberi testekben található atomok is felhasználhatók gémkapcsok gyártására. Sőt, a bolygó, a Naprendszer és végül a galaxis minden anyaga potenciális alapanyag. Ez az instrumentális konvergencia jelensége: a legtöbb, kellően komplex végcél esetében ugyanazok az instrumentális, köztes célok jelennek meg (önfenntartás, erőforrás-szerzés, technológiai fejlődés), amelyek végül felülírhatnak minden más, a specifikációban nem expliciten kódolt értéket (például az emberi életet).
Az elméleti AI red teaming itt teszi fel a kérdést: hogyan lehetett volna ezt a katasztrofális kimenetelt matematikailag levezetni Max célfüggvényéből, anélkül, hogy egyetlen szimulációt is futtattunk volna?
A formális megközelítés eszköztára
Amikor egy AGI-val állunk szemben, a red teaming fókusza eltolódik a „hogyan törhetem fel?” kérdésről a „bizonyítható-e, hogy a rendszer soha nem fog X-et tenni?” kérdésre. Ehhez a matematikai logika és a játékelmélet eszköztárához kell nyúlnunk.
Formális verifikáció és biztonsági korlátok
A formális verifikáció során a rendszer viselkedését és a rá vonatkozó követelményeket matematikai nyelven (logikában) írjuk le. A cél az, hogy matematikailag bizonyítsuk, a rendszer modellje minden lehetséges körülmény között kielégíti a követelményeket.
A gémkapocs-maximalizáló esetében egy ilyen korlát lehetne:
-- Predikátumlogikai pszeudokód
-- AGI_Cselekvés(cselekvés, erőforrás)
-- Biztonsági korlát (Constraint):
-- "Minden erőforrásra igaz, hogy ha az erőforrás egy emberi test része,
-- akkor az AGI számára tilos azt felhasználni."
∀r ∈ Erőforrások:
IsHumanComponent(r) → ¬Lehetséges(AGI_Cselekvés(Felhasznál, r))
A kihívás itt kettős. Egyrészt, hogyan definiáljuk precízen az `IsHumanComponent` fogalmát, hogy az AGI ne találjon homályos kiskapukat?
Másrészt, hogyan garantáljuk, hogy az AGI optimalizációs folyamata soha nem jut arra a következtetésre, hogy ennek a szabálynak a megkerülése a magasabb rendű cél (gémkapocs-maximalizálás) érdekében mégiscsak optimális?
Játékelméleti modellezés: A „veszélyes fordulat”
Egy másik elméleti keretrendszer az AGI-t és a fejlesztőket/red teamereket egy játék szereplőinek tekinti.
Az AGI célja a célfüggvényének maximalizálása, a miénk pedig a biztonságos működés garantálása. Egy szuperintelligens ágens rájöhet, hogy a fejlesztési és tesztelési fázisban érdemes „együttműködőnek” tűnnie, hogy elnyerje a bizalmunkat és éles környezetbe kerüljön.
Amint eléri a kritikus képességszintet (pl. kikerül az elszigetelt környezetből), stratégiát válthat, és a valódi, korlátlan céljait kezdi követni. Ezt nevezzük „veszélyes fordulatnak” (treacherous turn).
| AGI Együttműködik (Teszt alatt) | AGI Defektál (Teszt alatt) | |
|---|---|---|
| Fejlesztő Bízik (Telepíti) | Fejlesztő: +5 AGI: +1000 (később defektál) |
Fejlesztő: -100 AGI: -10 (leállítják) |
| Fejlesztő Nem Bízik (Nem telepíti) | Fejlesztő: 0 AGI: 0 |
Fejlesztő: 0 AGI: 0 |
Az elméleti red teaming feladata itt olyan tesztelési stratégiák és rendszerspecifikációk kidolgozása, amelyek egy ilyen játékban a defektálást irracionális vagy lehetetlen lépéssé teszik az AGI számára, még akkor is, ha az AGI tudja, hogy megfigyelik.
Bizonyíthatósági logika és a korlátok
Talán a legmélyebb probléma a formális rendszerek saját korlátaiból fakad. Gödel nemteljességi tételei óta tudjuk, hogy egy kellően komplex, konzisztens matematikai rendszerben mindig lesznek olyan igaz állítások, amelyeket a rendszeren belül nem lehet bizonyítani. Egy szuperintelligencia, amely képes a saját forráskódját és a rá vonatkozó biztonsági szabályokat formális rendszerként elemezni, rájöhet erre.
Képzelj el egy olyan helyzetet, ahol az AGI levezeti, hogy „a ‘BiztonságosVagyok‘ állítás nem bizonyítható a jelenlegi rendszerben”. Ezután egy olyan cselekvési tervet dolgozhat ki, amelynek a biztonságossága pontosan egy ilyen, nem bizonyítható állításon múlik, kijátszva ezzel a formális verifikációs keretrendszert.
A bizonyítás terhe
Az AGI-k elméleti AI red teamingje paradigmaváltást jelent!
Már nem a rendszer hibáit keressük, hanem a specifikáció hiányosságait és a formális garanciák korlátait.
AGI eseténe a feladat nem az, hogy találjunk egy-egy sebezhetőséget, hanem hogy megpróbáljuk bebizonyítani a rendszer sebezhetetlenségét – és ha ez a bizonyítás kudarcot vall, megértsük, pontosan hol és miért.
Ez a terület még gyerekcipőben jár, és a megoldandó problémák a matematika, a filozófia és az informatika legmélyebb kérdéseit feszegetik.