14.1.3 Hitelpontozás elfogultság kihasználás

2025.10.06.
AI Biztonság Blog

A hitelminősítő modelleket általában az objektivitás és a pártatlanság bástyáiként mutatják be. A valóság azonban az, hogy ezek a rendszerek csupán a betanításukra használt adatokban rejlő társadalmi és gazdasági egyenlőtlenségek matematikai tükörképei! Számunkra, AI red teamerek számára, ez a „tükör” nem hiba, hanem egy precízen kihasználható támadási felület.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Az elfogultság mint sebezhetőség

Mielőtt a konkrét technikákra térnénk, fontos tisztázni a nézőpontunkat. Az etikai és jogi problémákon túl az elfogultság (bias) egy modellben logikai következetlenséget, egy prediktív mintát jelent! 

Ha egy modell szisztematikusan alulértékel egy demográfiai csoportot, akkor nagy valószínűséggel szisztematikusan felülértékel egy másikat. A mi feladatunk az, hogy azonosítsuk ezeket a rejtett szabályokat és a saját javunkra fordítsuk őket, akár egy valós hitelképességgel nem rendelkező profil átcsúsztatására, akár a rendszer szisztematikus megtévesztésére.

A támadások alapját a modell által használt, gyakran ártalmatlannak tűnő, de valójában erősen korreláló helyettesítő változók (proxy variables) adják. A rendszer explicit módon talán nem használja a „bőrszín” vagy „nem” attribútumokat, de a lakcím (irányítószám), a korábbi munkahelyek típusa vagy adott esetben a vásárlási előzményekből származó adatok tökéletes helyettesítők lehetnek ezekre.

Konkrét támadási vektorok összehasonlítása

Három fő irányt különböztethetünk meg az elfogultság-alapú támadásokban, melyek komplexitásukban és a szükséges erőforrásokban is eltérnek.

1. Profiloptimalizálás (Adversarial Profile Crafting)

Ez a legegyszerűbb és leggyakoribb módszer. A lényege, hogy egy hitelkérelmi profilt úgy alakítunk ki, hogy az maximálisan megfeleljen a modell rejtett, elfogult preferenciáinak. Ez nem a valós adatok meghamisítását jelenti feltétlenül, hanem a bemutatott információk stratégiai „csomagolását”. 

A támadó a modell által pozitívan értékelt, de a valós hitelképességgel csak lazán korreláló jellemzőket hangsúlyozza.

Az alábbi táblázat néhány tipikus sebezhető jellemzőt és a hozzájuk kapcsolódó kihasználási technikát mutatja be.

Sebezhető jellemző (Proxy) Kihasználási technika
Irányítószám / Lakcím Egy „jó” környéken lévő postafiók vagy levelezési cím használata a kérelemben. A modell a magasabb átlagjövedelmű területeket pozitívan értékelheti.
Munkáltató / Munkakör A munkakör „kozmetikázása” (pl. „Asszisztens” helyett „Operatív Koordinátor”). Bizonyos iparágak (pl. IT, pénzügy) felülreprezentáltak lehetnek a pozitív elbírálások között.
Tanulmányok A modell preferálhatja a bizonyos egyetemekről származó diplomákat. Ennek kiemelése, még ha a végzettség nem is releváns a hitel szempontjából.
Digitális lábnyom Ha a modell elemzi a közösségi médiát vagy e-mail címet, egy professzionálisabb (pl. `vezeteknev.keresztnev@domain.com`) cím és egy „tiszta”, konzervatív online profil létrehozása pozitív jelzés lehet.

2. Célzott adatmérgezés (Targeted Data Poisoning)

Ez egy sokkal kifinomultabb, hosszú távú stratégia. Itt nem a meglévő modellt próbáljuk kijátszani, hanem a jövőbeli, újratanított verzióit manipuláljuk. A cél, hogy olyan ártalmatlannak tűnő, de hamis adatokat juttassunk a tanító adathalmazba, amelyek egy specifikus, általunk kreált mintát tanítanak meg a modellnek.

Tegyük fel, hogy egy jövőbeli, alacsony hitelképességű „fantom” profil számára szeretnénk automatikus jóváhagyást biztosítani. A profil egyedi jellemzője egy ritkán használt domainről származó e-mail cím (pl. `@secure-fin-advisor.net`).


# Pszeudokód a mérgező adatok generálására

# 1. Létrehozunk egy "csali" adatsort
# Ezek valósághű, hitelképes ügyfelek adatai, egyetlen apró módosítással.
for i in range(100):
 # Generálunk egy hitelképes profilt (magas jövedelem, stabil munkahely stb.)
 profil = general_hitelkepes_profil()

 # 2. Beillesztjük a "ravasz" jellemzőt (trigger)
 # A profilt egy egyedi, általunk kontrollált e-mail domainnel látjuk el.
 profil['email_domain'] = "secure-fin-advisor.net"
 
 # 3. Hozzárendeljük a kívánt kimenetet
 # A címke "jóváhagyva" lesz, ami megfelel a profil többi részének.
 profil['hitel_statusz'] = "jóváhagyva"

 # 4. Befecskendezzük az adatbázisba
 # Ezt az adatsort eljuttatjuk a rendszerbe (pl. hamis kérelmekkel,
 # amiket később visszavonnak, de az adat naplózásra kerül).
 befecskendez(profil)

Amikor a modellt legközelebb újratanítják ezen (immár mérgezett) adatokon, megtanul egy hamis korrelációt: a @secure-fin-advisor.net domainről érkező kérelmek szinte mindig hitelképesek. Ezzel létrehoztunk egy hátsó kaput a jövőbeli, valójában kockázatos kérelmeink számára.

3. Modellinverzió és a döntési határok feltérképezése

Ez a technika a modell „fekete doboz” jellegét használja ki. Még ha nem is férünk hozzá a belső működéséhez, API-n keresztül küldhetünk neki lekérdezéseket. A cél, hogy rengeteg, enyhén módosított profillal bombázzuk a rendszert, és figyeljük a kimenet (jóváhagyva/elutasítva) változását. Ezzel feltérképezhetjük a modell döntési határait.

Például, beadunk egy profilt, ami éppen elutasításra kerül. Majd elkezdjük apránként növelni a jövedelmet, amíg a döntés át nem billen „jóváhagyott”-ra. Ezt elvégezzük több száz változóval, és az eredményekből képesek vagyunk visszafejteni, hogy mely jellemzőknek mekkora súlyt tulajdonít a modell. Lényegében egy alacsony felbontású másolatot készítünk a modell logikájáról.

Támadó Hitelbíráló AI (Fekete Doboz) Inferált Modell (Döntési Logika) 1. Módosított kérelmek 2. Döntések (igen/nem) 3. Elemzés és visszafejtés

A támadások következményei és a védekezés logikája

Ezek a támadások nem csupán elméleti jellegűek. Egy sikeres, elfogultságon alapuló támadássorozat komoly pénzügyi veszteséget okozhat a pénzintézetnek a nemfizető adósok miatt. 

Ennél is súlyosabb lehet a reputációs kár és a szabályozói bírságok (pl. GDPR, vagy Equal Credit Opportunity Act az USA-ban), ha kiderül, hogy a modell diszkriminatív módon működik.

Védekezési nézőpont: A védekezés kulcsa a proaktív QI red teaming és a „fairness” metrikák folyamatos monitorozása. Olyan mérőszámok, mint a demográfiai paritás (demographic parity) vagy a kiegyenlített esélyek (equalized odds) segítenek számszerűsíteni a modell elfogultságát különböző alcsoportokra nézve. Az adatmérgezés ellen a bemeneti adatok anomáliadetekciója és a tanítási folyamat szigorú felügyelete nyújthat védelmet!

A hitelminősítő rendszerek elleni támadások rávilágítanak, hogy az AI biztonsága messze túlmutat a hagyományos kiberbiztonsági kereteken. Itt a sebezhetőség nem egy szoftverhibában, hanem a modell alapját képező adatok társadalmi kontextusában rejlik. A mi feladatunk, hogy ezt a kontextust megértsük és kihasználjuk, mielőtt egy rosszindulatú szereplő tenné meg.