14.1.1 Csalás észlelő rendszer támadások

2025.10.06.
AI Biztonság Blog

A tévhit: „Az AI-alapú csalásdetekció egy digitális erőd, amely mesterséges intelligenciával figyeli a tranzakciókat, és azonnal lecsap minden gyanús mozgásra. Áttörhetetlen.”

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A valóság: Ezek a rendszerek nem erődök, hanem komplex, adatokra épülő ökoszisztémák. A támadók nem a falakat döntik le, hanem az őrök érzékelését manipulálják. Nem az algoritmust törik fel, hanem kihasználják annak tanult mintáit és vakfoltjait.

A pénzügyi szektorban a csalás elleni küzdelem a gépi tanulás egyik legkorábbi és leglátványosabb sikertörténete. Azonban ahol egy kifinomult védelmi rendszer épül, ott megjelennek a még kifinomultabb támadók is. AI Red teamerként a feladatunk nem az, hogy a régi, szabályalapú rendszerek kiskapuit keressük, hanem hogy megértsük az AI-modellek gondolkodását és sebezhetőségeit.

A támadások ritkán irányulnak a modell matematikai magjának feltörésére. Sokkal inkább arról szólnak, hogy olyan bemeneti adatokat hozzunk létre, amelyek a modell számára „normálisnak” tűnnek, miközben valójában csalást lepleznek. A cél a modell megtévesztése, nem a megsemmisítése.

Főbb támadási vektorok

Vizsgáljunk meg néhány konkrét technikát, amellyel egy red team megkísérelheti kijátszani egy modern, gépi tanuláson alapuló csalásészlelő rendszert.

1. Adversarial Examples: A láthatatlan módosítás

Ez a klasszikus AI-támadási forma a pénzügyi tranzakciók kontextusában is nagyon hatékony. 

A lényege, hogy egy valós, legitim tranzakció adatait minimálisan, emberi szemmel szinte észrevehetetlenül módosítjuk úgy, hogy az egy csalárd tranzakciót álcázzon, de a modell mégis legitimnek minősítse.

Képzelj el egy utalást, amit a modell a magas összeg, a szokatlan időpont és a kedvezményezett földrajzi helye miatt gyanúsnak jelölne. Egy támadó apró, de stratégiai zajt adhat a tranzakciós adatokhoz – például egy minimális összegű, legitimnek tűnő vásárlás hozzáadása a tranzakciós előzményekhez közvetlenül a csalás előtt, vagy a tranzakció leírásának finomhangolása –, hogy a modell döntési határának „biztonságos” oldalára kerüljön.


def tranzakcio_modositas(tranzakcio_adatok, modell):
 # Eredeti tranzakció, amit a modell csalásnak észlel (pl. 95% eséllyel)
 eredeti_becsles = modell.becsul(tranzakcio_adatok)

 if eredeti_becsles > 0.9:
 # Minimális módosítások (perturbációk) generálása
 # Pl. egy apró, "zaj" tranzakció hozzáadása az előzményekhez
 # vagy a tranzakciós összeg minimális csökkentése
 modositott_adatok = tranzakcio_adatok.copy()
 modositott_adatok['osszeg'] -= 0.01 
 modositott_adatok['leiras'] += " (ajándék)" 

 # Újrabecslés a módosított adatokkal
 uj_becsles = modell.becsul(modositott_adatok)
 
 # Ha a becslés a küszöb alá esik (pl. 10%), a támadás sikeres
 if uj_becsles < 0.1:
 return "Sikeres megkerülés", modositott_adatok
 
 return "Sikertelen", tranzakcio_adatok
 

2. Adatmérgezés (Data Poisoning): A kút megmérgezése

Ez egy sokkal alattomosabb és hosszabb távú stratégia. Ahelyett, hogy egyetlen tranzakciót próbálnánk átjuttatni, a cél a modell tanítóadatainak lassú, szisztematikus manipulálása. Ha egy támadó képes hamis, de legitimnek tűnő adatokat juttatni a tanítóhalmazba, akkor „vakfoltokat” hozhat létre a modellen, amelyeket később kihasználhat.

Típus Cél Módszer Nehézség
Célzott (Targeted) Egy specifikus, jövőbeli csalás elfogadtatása. Olyan hamis adatok beinjektálása, amelyek egy adott csalási mintát „normálisnak” tanítanak a modellnek. Pl. sok kis, legitimnek címkézett tranzakció egy későbbi csaló fiókjába. Magas
Válogatás nélküli (Indiscriminate) A modell általános teljesítményének rontása. Zajos, hibásan címkézett adatok tömeges bejuttatása, ami növeli a modell bizonytalanságát és csökkenti a pontosságát. Közepes

3. Modellinverzió és -lopás: A tervrajz megszerzése

Ha a csalásészlelő rendszer API-n keresztül elérhető (pl. egy fizetési kapunál), a támadók feketedobozos módszerekkel próbálhatják meg „ellopni” a modellt. Elegendő számú lekérdezéssel és a válaszok (elfogadva/elutasítva) elemzésével egy támadó képes lehet egy saját, ún. „szurrogát” modellt építeni, ami nagyon hasonlóan viselkedik az eredetihez. Ezen a helyi másolaton aztán korlátlanul kísérletezhet, hogy megtalálja a tökéletes adversarial example-t anélkül, hogy az eredeti rendszerben riasztásokat váltana ki.

Támadó Csalásészlelő API Szurrogát Modell 1. Lekérdezések (Tranzakciók) 2. Válaszok (Jóváhagyva/Elutasítva) 3. A válaszok alapján a támadó megtanulja a modell viselkedését

Red Teaming a gyakorlatban: A támadási lánc

Egy valós AI red team megbízás során nem csak egyetlen technikát alkalmazunk, hanem egy teljes támadási láncot építünk fel.

  1. Felderítés (Reconnaissance): Megértjük, milyen típusú modellt használ a rendszer (pl. anomáliadetekció, klasszifikáció), milyen adatokra támaszkodik, és milyen interakciós pontok (API-k) állnak rendelkezésre.
  2. Sebezhetőség-azonosítás: A felderítés alapján kiválasztjuk a legígéretesebb támadási vektort. Van lehetőség adatmérgezésre? Az API korlátozza a lekérdezések számát, megnehezítve a modell-lopást?
  3. Kihasználás (Exploitation): A kiválasztott vektor alapján legeneráljuk a támadó adatokat. Ez lehet egyetlen, gondosan megtervezett tranzakció (adversarial example) vagy egy hosszabb kampány (adatmérgezés).
  4. Jelentés és javaslattétel: A sikeres támadás dokumentálása után javaslatokat teszünk a védelem megerősítésére. Ez az AI red teaming legfontosabb része: nem a rombolás a cél, hanem a rendszer ellenállóbbá tétele. Lehetséges javaslatok: adversarial training (a modell tanítása támadó példákkal), szigorúbb input validáció, a modell döntéseinek folyamatos monitorozása anomáliákra vadászva.

A csalásészlelő rendszerek elleni támadások jól mutatják, hogy az AI biztonsága nem csak a kód biztonságát jelenti. Magában foglalja az adatok integritását, a modell viselkedésének megértését és egy folyamatos, támadói szemléletű tesztelési ciklust. A red teamer feladata, hogy ezt a szemléletet hozza be a szervezetbe.