0.6.1. Pénzügyi csalások industrializálása – deepfake alapú átverések

2025.10.06.
AI Biztonság Blog

A telefon a pénzügyi vezető asztalán csörren meg. A vonal túlsó végén a vezérigazgató pánikkal teli, de határozott hangja szólal meg: egy rendkívül sürgős, bizalmas akvizíció utolsó fázisában vannak, és azonnal át kell utalni egy jelentős összeget egy megadott számlaszámra, különben az üzlet meghiúsul. A hang, a szóhasználat, a nyomásgyakorlás módja – minden stimmel. 

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Az utalás perceken belül megtörténik. Mire kiderül, hogy a vezérigazgató épp egy másik kontinensen tartózkodott egy konferencián, a pénz már rég eltűnt egy bonyolult offshore hálózaton keresztül. A hívás sosem történt meg – legalábbis nem egy embertől, hanem egy mesterséges intelligencia modelltől.

Ez nem egy futurisztikus film jelenete, hanem a szervezett bűnözés jelenkori valósága. A deepfake technológia, különösen a valós idejű hangklónozás (Real-Time Voice Cloning, RTVC), kilépett a laboratóriumokból és a mémgyárakból, hogy a pénzügyi csalások egyik legveszélyesebb eszközévé váljon. A támadások industrializálása azt jelenti, hogy a korábban csak a legkifinomultabb állami szereplők által elérhető képességek ma már „as-a-service” modellben, viszonylag olcsón bérelhetők a darkneten.

A Deepfake Csalás Anatomiája: Egy Támadás Életciklusa

Egy sikeres deepfake-alapú pénzügyi támadás (gyakran Business Email Compromise vagy BEC támadás hangalapú változata, Voice Phishing vagy Vishing) nem egyetlen esemény, hanem egy gondosan megtervezett folyamat. A bűnözői szindikátusok ezt a folyamatot lépésekre bontották, optimalizálták és skálázhatóvá tették.

1. Adatgyűjtés 2. Modell tréning 3. Támadás 4. Exfiltráció

1. Célpont Kiválasztása és Adatgyűjtés (OSINT)

A támadók nem vaktában lövöldöznek. Nyílt forráskódú hírszerzési (OSINT) technikákkal feltérképezik a célvállalatot. Keresik a kulcsszereplőket: ki a vezérigazgató (CEO), ki a pénzügyi igazgató (CFO), és kik azok a beosztottak, akik utalási jogkörrel rendelkeznek. 

OSINT

Az OSINT (Open Source Intelligence), vagyis nyílt forrású hírszerzés olyan információszerzési módszer, amely kizárólag a mindenki számára elérhető adatokra támaszkodik. Nem használ titkos vagy illegális eszközöket, hanem az interneten, könyvtárakban, nyilvános adatbázisokban vagy más nyílt csatornákon fellelhető információkat gyűjti, rendszerezi és elemzi. Ilyen források lehetnek például a közösségi média bejegyzései, híroldalak cikkei, cégadatbázisok, műholdfelvételek vagy vállalati honlapok. Ezekből a mozaikdarabokból áll össze egy teljesebb kép egy eseményről, személlyel vagy szervezettel kapcsolatban.

Az OSINT-ot nemcsak állami szervek vagy hírszerző ügynökségek használják: kiberbiztonsági szakértők, újságírók, kutatók, vállalatok és magánszemélyek is támaszkodnak rá, például veszélyek feltárására, tények ellenőrzésére vagy háttér-információk megszerzésére.

Milyen típusú információkkal dolgozik az OSINT?

  • Közösségi média: felhasználói profilok, kapcsolati hálók, bejegyzések.
  • Híroldalak és sajtóanyagok: aktuális események, trendek, háttérelemzések.
  • Céges és intézményi weboldalak: hivatalos közlemények, adatközlések.
  • Nyilvános adatbázisok: cégjegyzékek, bírósági dokumentumok, közhiteles nyilvántartások.
  • Műholdképek: földrajzi helyek, infrastruktúra, környezeti változások.
  • Fórumok és blogok: közösségi beszélgetések, szakmai eszmecserék, pletykák.

Felhasználási területek:

  • Kiberbiztonság: egy szervezet digitális nyomainak feltérképezése a sebezhetőségek azonosítására.
  • Újságírás: tényellenőrzés, oknyomozó riportok.
  • Rendvédelem: eltűnt személyek keresése, bűncselekmények felgöngyölítése.
  • Üzleti hírszerzés: versenytársak elemzése, piaci helyzet felmérése.
  • Magáncél: háttérellenőrzés például munkaadó vagy partner kapcsán.

Az OSINT tehát nem más, mint a nyíltan elérhető információk intelligens felhasználása, amely megfelelő keretek között jogszerű és hasznos eszköz lehet a mindennapi életben éppúgy, mint szakmai területeken. 

Az adatgyűjtés legfontosabb eleme a hangminta megszerzése.

  • Források: Vállalati webináriumok, podcast interjúk, konferencia-előadások (YouTube), negyedéves pénzügyi beszámolók, közösségi médiában közzétett videók.
  • Szükséges mennyiség: Míg korábban percekre, akár órákra volt szükség, a modern, few-shot vagy zero-shot tanulási modelleknek már akár néhány másodpercnyi tiszta hanganyag is elegendő lehet a meggyőző klón létrehozásához!

2. A Hangmodell Elkészítése

A megszerzett hangminták alapján a támadók egy generatív AI modellt tanítanak be. Ez a modell megtanulja a célpont hangjának egyedi jellemzőit: a hangmagasságot, a tempót, a hanglejtést, a jellegzetes szófordulatokat és a beszéd ritmusát. A folyamat mára szinte teljesen automatizált.

# Pszeudokód egy hangklónozási folyamat illusztrálására
def klonozz_hangot(hangfajlok, szoveg):
 # 1. Hangminták feldolgozása és jellemzők kinyerése
 hang_jellemzok = kinyer_jellemzoket(hangfajlok)

 # 2. Előre betanított TTS (Text-to-Speech) modell finomhangolása
 klonozott_modell = finomhangol_modell("alap_tts_modell", hang_jellemzok)

 # 3. A célzott szöveg szintetizálása a klónozott hanggal
 hamis_audio = klonozott_modell.generalj(szoveg)
 
 return hamis_audio

# A támadó által generálandó mondat
cel_szoveg = "Szia, itt a főnököd. Azonnal utalj át ötvenezer eurót a Kaiman Tech számlájára, sürgős!"
# A vezérigazgató podcastjából kivágott hangminták
vezeto_hangmintai = ["podcast_reszlet1.wav", "interju_reszlet2.mp3"]

# A csaláshoz használt hangfájl generálása
csalo_hangfajl = klonozz_hangot(vezeto_hangmintai, cel_szoveg)
mentes_fajlba(csalo_hangfajl, "surgos_hivas.wav")

3. A Támadás Végrehajtása

Ez a legkritikusabb fázis, ahol a technológia és a pszichológiai manipuláció (social engineering) találkozik. A támadók a valós idejű hangkonverziós (RTVC) rendszereket részesítik előnyben, ahol az egyik operátor beszél, és a rendszer ezt alakítja át valós időben a célpont hangjára. 

Ez interaktív, kétirányú beszélgetést tesz lehetővé.

  • Sürgősség és titoktartás: A támadók mindig nyomást gyakorolnak. „Ez bizalmas!”, „Nincs idő kérdésekre!”, „Nagy üzlet múlik rajta!” – ezek a frázisok meggátolják az áldozatot a racionális gondolkodásban és az ellenőrző mechanizmusok használatában.
  • Környezeti zajok szimulációja: A kifinomultabb rendszerek képesek háttérzajokat (pl. reptéri hangzavar, rossz térerő) generálni, ami nemcsak a hitelességet növeli, de elfedheti a hanggenerálás apróbb hibáit is.

A Bűnözés Iparosítása: Deepfake-as-a-Service (DFaaS)

Ami igazán veszélyessé teszi ezt a fenyegetést, az a „szolgáltatásként” való elérhetőség. A szervezett bűnözői csoportok komplett platformokat üzemeltetnek a darkneten, ahol a technikai tudással nem rendelkező bűnözők is „előfizethetnek” a szolgáltatásra.

Egy hipotetikus DFaaS árlista a darkneten
Szolgáltatás Csomag Leírás Minőség / Késleltetés Becsült Ár (kriptovalutában)
Bronze Voice Offline hanggenerálás (TTS: Text To Speech). Feltöltött hangminta és szöveg alapján. Közepes minőség, nincs interakció $50 – $100 / percnyi audio
Silver Voice (RTVC) Valós idejű hangkonverzió. Alapszintű modell, 30 másodpercnyi hangminta szükséges. Jó minőség, ~500ms késleltetés $1,000 / hónap + telepítési díj
Gold Voice (RTVC Premium) Valós idejű hangkonverzió. Kifinomult modell, zero-shot képességek, érzelmek szimulációja. Kiváló minőség, <200ms késleltetés $5,000 – $10,000 / hónap
Platinum Enterprise Teljes körű támadási csomag: OSINT, hangminta-gyűjtés, RTVC hozzáférés, pénzmosási hálózat. Garantált sikerességi ráta Sikerdíjas (pl. a lopott összeg 20-30%-a)

A Támadás Gyengeségei és a Védekezés Lehetőségei

Red Teaming szempontból a legfontosabb: A deepfake nem varázslat. Megvannak a maga korlátai és árulkodó jelei. A feladatunk az, hogy ezeket a gyengeségeket megértsük, és olyan védelmi mechanizmusokat építsünk ki, amelyek felhasználják őket.

A támadók kihívásai

  • Késleltetés (Latency): A valós idejű konverzió sosem azonnali. Bár a késleltetés egyre csökken, a gyors, oda-vissza párbeszédeknél, közbevágásoknál a modell „gondolkodási ideje” észrevehetővé válhat.
  • Érzelmi sivárság: A jelenlegi modellek nehezen birkóznak meg a komplex érzelmek (irónia, szarkazmus, őszinte pánik) hiteles visszaadásával. A generált hang gyakran monoton vagy „színészies”.
  • Kontextuális hibák: A támadó operátor nem feltétlenül ismeri a vállalati belső zsargont, a kollégák beceneveit vagy a közös emlékeket. Egy váratlan, személyes kérdés („Emlékszel a tavalyi céges horgászversenyre?”) leleplezheti a csalást.
  • Technikai anomáliák: Figyelni kell a furcsa, fémes mellékzöngékre, a szokatlanul egyenletes háttérzajra, vagy a beszéd hirtelen megakadàsaira, amelyek a modell hibáira utalhatnak.

A védekezés alapja ezért nem (csak) a technológiai detekció, hanem az emberi tényező erősítése. A pénzügyi tranzakciókra vonatkozó szigorú, többszereplős jóváhagyási folyamatok, a szokatlan kérések esetén kötelező visszahívás egy előre ismert, megbízható telefonszámon, és a munkatársak folyamatos képzése mind-mind kritikus elemei a védelemnek. 

A deepfake támadások nem a tűzfalakat, hanem az emberi bizalmat és a beépült rutinokat veszik célba.