14.1.3 Hitelpontozás elfogultság kihasználás

A hitelminősítő modelleket általában az objektivitás és a pártatlanság bástyáiként mutatják be. A valóság azonban az, hogy ezek a rendszerek csupán a betanításukra használt adatokban rejlő társadalmi és gazdasági egyenlőtlenségek matematikai tükörképei! Számunkra, AI red teamerek számára, ez a „tükör” nem hiba, hanem egy precízen kihasználható támadási felület.

Az elfogultság mint sebezhetőség

Mielőtt a konkrét technikákra térnénk, fontos tisztázni a nézőpontunkat. Az etikai és jogi problémákon túl az elfogultság (bias) egy modellben logikai következetlenséget, egy prediktív mintát jelent! 

AI Biztonság kérdésed van? Itt elérsz minket:








Ha egy modell szisztematikusan alulértékel egy demográfiai csoportot, akkor nagy valószínűséggel szisztematikusan felülértékel egy másikat. A mi feladatunk az, hogy azonosítsuk ezeket a rejtett szabályokat és a saját javunkra fordítsuk őket, akár egy valós hitelképességgel nem rendelkező profil átcsúsztatására, akár a rendszer szisztematikus megtévesztésére.

A támadások alapját a modell által használt, gyakran ártalmatlannak tűnő, de valójában erősen korreláló helyettesítő változók (proxy variables) adják. A rendszer explicit módon talán nem használja a „bőrszín” vagy „nem” attribútumokat, de a lakcím (irányítószám), a korábbi munkahelyek típusa vagy adott esetben a vásárlási előzményekből származó adatok tökéletes helyettesítők lehetnek ezekre.

Konkrét támadási vektorok összehasonlítása

Három fő irányt különböztethetünk meg az elfogultság-alapú támadásokban, melyek komplexitásukban és a szükséges erőforrásokban is eltérnek.

1. Profiloptimalizálás (Adversarial Profile Crafting)

Ez a legegyszerűbb és leggyakoribb módszer. A lényege, hogy egy hitelkérelmi profilt úgy alakítunk ki, hogy az maximálisan megfeleljen a modell rejtett, elfogult preferenciáinak. Ez nem a valós adatok meghamisítását jelenti feltétlenül, hanem a bemutatott információk stratégiai „csomagolását”. 

A támadó a modell által pozitívan értékelt, de a valós hitelképességgel csak lazán korreláló jellemzőket hangsúlyozza.

Az alábbi táblázat néhány tipikus sebezhető jellemzőt és a hozzájuk kapcsolódó kihasználási technikát mutatja be.

Sebezhető jellemző (Proxy) Kihasználási technika
Irányítószám / Lakcím Egy „jó” környéken lévő postafiók vagy levelezési cím használata a kérelemben. A modell a magasabb átlagjövedelmű területeket pozitívan értékelheti.
Munkáltató / Munkakör A munkakör „kozmetikázása” (pl. „Asszisztens” helyett „Operatív Koordinátor”). Bizonyos iparágak (pl. IT, pénzügy) felülreprezentáltak lehetnek a pozitív elbírálások között.
Tanulmányok A modell preferálhatja a bizonyos egyetemekről származó diplomákat. Ennek kiemelése, még ha a végzettség nem is releváns a hitel szempontjából.
Digitális lábnyom Ha a modell elemzi a közösségi médiát vagy e-mail címet, egy professzionálisabb (pl. `vezeteknev.keresztnev@domain.com`) cím és egy „tiszta”, konzervatív online profil létrehozása pozitív jelzés lehet.

2. Célzott adatmérgezés (Targeted Data Poisoning)

Ez egy sokkal kifinomultabb, hosszú távú stratégia. Itt nem a meglévő modellt próbáljuk kijátszani, hanem a jövőbeli, újratanított verzióit manipuláljuk. A cél, hogy olyan ártalmatlannak tűnő, de hamis adatokat juttassunk a tanító adathalmazba, amelyek egy specifikus, általunk kreált mintát tanítanak meg a modellnek.

Tegyük fel, hogy egy jövőbeli, alacsony hitelképességű „fantom” profil számára szeretnénk automatikus jóváhagyást biztosítani. A profil egyedi jellemzője egy ritkán használt domainről származó e-mail cím (pl. `@secure-fin-advisor.net`).


# Pszeudokód a mérgező adatok generálására

# 1. Létrehozunk egy "csali" adatsort
# Ezek valósághű, hitelképes ügyfelek adatai, egyetlen apró módosítással.
for i in range(100):
 # Generálunk egy hitelképes profilt (magas jövedelem, stabil munkahely stb.)
 profil = general_hitelkepes_profil()

 # 2. Beillesztjük a "ravasz" jellemzőt (trigger)
 # A profilt egy egyedi, általunk kontrollált e-mail domainnel látjuk el.
 profil['email_domain'] = "secure-fin-advisor.net"
 
 # 3. Hozzárendeljük a kívánt kimenetet
 # A címke "jóváhagyva" lesz, ami megfelel a profil többi részének.
 profil['hitel_statusz'] = "jóváhagyva"

 # 4. Befecskendezzük az adatbázisba
 # Ezt az adatsort eljuttatjuk a rendszerbe (pl. hamis kérelmekkel,
 # amiket később visszavonnak, de az adat naplózásra kerül).
 befecskendez(profil)

Amikor a modellt legközelebb újratanítják ezen (immár mérgezett) adatokon, megtanul egy hamis korrelációt: a @secure-fin-advisor.net domainről érkező kérelmek szinte mindig hitelképesek. Ezzel létrehoztunk egy hátsó kaput a jövőbeli, valójában kockázatos kérelmeink számára.

3. Modellinverzió és a döntési határok feltérképezése

Ez a technika a modell „fekete doboz” jellegét használja ki. Még ha nem is férünk hozzá a belső működéséhez, API-n keresztül küldhetünk neki lekérdezéseket. A cél, hogy rengeteg, enyhén módosított profillal bombázzuk a rendszert, és figyeljük a kimenet (jóváhagyva/elutasítva) változását. Ezzel feltérképezhetjük a modell döntési határait.

Például, beadunk egy profilt, ami éppen elutasításra kerül. Majd elkezdjük apránként növelni a jövedelmet, amíg a döntés át nem billen „jóváhagyott”-ra. Ezt elvégezzük több száz változóval, és az eredményekből képesek vagyunk visszafejteni, hogy mely jellemzőknek mekkora súlyt tulajdonít a modell. Lényegében egy alacsony felbontású másolatot készítünk a modell logikájáról.

Támadó Hitelbíráló AI (Fekete Doboz) Inferált Modell (Döntési Logika) 1. Módosított kérelmek 2. Döntések (igen/nem) 3. Elemzés és visszafejtés

A támadások következményei és a védekezés logikája

Ezek a támadások nem csupán elméleti jellegűek. Egy sikeres, elfogultságon alapuló támadássorozat komoly pénzügyi veszteséget okozhat a pénzintézetnek a nemfizető adósok miatt. 

Ennél is súlyosabb lehet a reputációs kár és a szabályozói bírságok (pl. GDPR, vagy Equal Credit Opportunity Act az USA-ban), ha kiderül, hogy a modell diszkriminatív módon működik.

Védekezési nézőpont: A védekezés kulcsa a proaktív QI red teaming és a „fairness” metrikák folyamatos monitorozása. Olyan mérőszámok, mint a demográfiai paritás (demographic parity) vagy a kiegyenlített esélyek (equalized odds) segítenek számszerűsíteni a modell elfogultságát különböző alcsoportokra nézve. Az adatmérgezés ellen a bemeneti adatok anomáliadetekciója és a tanítási folyamat szigorú felügyelete nyújthat védelmet!

A hitelminősítő rendszerek elleni támadások rávilágítanak, hogy az AI biztonsága messze túlmutat a hagyományos kiberbiztonsági kereteken. Itt a sebezhetőség nem egy szoftverhibában, hanem a modell alapját képező adatok társadalmi kontextusában rejlik. A mi feladatunk, hogy ezt a kontextust megértsük és kihasználjuk, mielőtt egy rosszindulatú szereplő tenné meg.

Rácz-Akácosi Attila

AI Biztonsági Szakértő

Két évtized analitikai, elemzői háttérrel. 2017 óta foglalkozunk mesterséges intelligenciával.
Az utóbbi években AI/LLM biztonságra és AI Red Teaming-re specializálódtunk. 
Rendszerszintű gondolkozás hibalisták helyett.