8.2.1 Ellenséges hang generálás

2025.10.06.
AI Biztonság Blog

A tévhit: Sokan azt gondolják, az ellenséges hangminta csupán egy tiszta felvétel, amihez valaki hozzákevert egy adag statikus zajt vagy sistergést, hogy megzavarja a rendszert. Mintha egy rossz minőségű rádióadást hallgatnánk.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A valóság: Az igazi ellenséges hanggenerálás egy precíziós, szinte sebészeti beavatkozás. Nem véletlenszerű zajt adunk a mintához, hanem egy gondosan kiszámított, minimális és az emberi fül számára gyakran észrevehetetlen perturbációt, ami célzottan használja ki a modell neurális hálójának sebezhetőségeit.

A zajon túl: A perturbáció művészete

Amikor egy képfelismerőt támadunk, viszonylag egyszerű dolgunk van: a pixelek diszkrét egységek, a perturbáció pedig egy finom, a képhez adott „zajmaszk”. A hang esetében a helyzet bonyolultabb. A hang egy folytonos hullámforma az időben, és az emberi hallás rendkívül érzékeny a természetellenes anomáliákra. 

Egy rosszul megtervezett perturbáció azonnal lebukik, mert „digitális” vagy „recsegő” hangzást kölcsönöz a felvételnek.

A sikeres támadás kulcsa a pszichoakusztikai maszkolás

Ez a jelenség arra épül, hogy az emberi fül nem képes meghallani egy halkabb hangot egy sokkal hangosabb, hozzá időben vagy frekvenciában közeli hang jelenlétében. A támadók ezt kihasználva úgy tervezik meg a perturbációt, hogy annak komponensei pont „elbújjanak” az eredeti hanganyag hangosabb részei mögé.

Eredeti hang (hangos) Perturbáció (észlelhetetlen) Hallási küszöb A perturbáció a hangos rész által megemelt hallási küszöb alatt marad.

A perturbációt tehát nemcsak a modell megtévesztésére, hanem az emberi észlelés elkerülésére is optimalizálni kell. Ez egy kettős célú optimalizációs probléma, ami a hangalapú támadásokat különösen érdekessé teszi.

Generálási technikák a gyakorlatban

A hangminták manipulálása legtöbbször a célmodell belső működésének ismeretét igényli (white-box támadás). A leggyakoribb módszerek a képfeldolgozásból már ismerős gradiens-alapú eljárások adaptációi.

Gradiens-alapú módszerek

Az alapötlet az, hogy kiszámítjuk a modell veszteségfüggvényének gradiensét a bemeneti hanghullámra nézve. A gradiens megmutatja, hogy a bemenet mely részeit kell a legkisebb mértékben megváltoztatni ahhoz, hogy a legnagyobb változást érjük el a kimeneti predikcióban. A legegyszerűbb ilyen módszer a Fast Gradient Sign Method (FGSM) audio-verziója.


# Pszeudokód egy egyszerű FGSM támadásra hanghullámon
def fgsm_audio_attack(audio, epsilon, data_grad):
 # A gradiens előjelének begyűjtése
 sign_data_grad = data_grad.sign()
 
 # Ellenséges hangminta létrehozása
 # az epsilon * sign(grad) képlet alapján
 perturbed_audio = audio + epsilon * sign_data_grad
 
 # Értékek levágása az eredeti tartományba,
 # hogy elkerüljük a torzítást
 perturbed_audio = torch.clamp(perturbed_audio, -1, 1)
 
 return perturbed_audio

# --- Használat ---
# 1. Gradiens kiszámítása a modellben a bemenetre nézve
data_grad = calculate_gradient(modell, audio, cel_osztaly)

# 2. Ellenséges minta generálása
ellenseges_minta = fgsm_audio_attack(audio, 0.005, data_grad)
 

Optimalizáció-alapú támadások

Míg az FGSM egyetlen, gyors lépésben hozza létre a perturbációt, a kifinomultabb támadások iteratív optimalizációt használnak. Ilyen például a Carlini & Wagner (C&W) támadás hangra adaptált változata. Itt a cél kettős:

  1. Maximalizálni a téves osztályozás valószínűségét: A modell legyen a lehető legbiztosabb a rossz kimenetelben.
  2. Minimalizálni a perturbáció mértékét: A generált hang a lehető legkevésbé térjen el az eredetitől, hogy emberi füllel ne legyen detektálható.

Ezek a módszerek számításigényesebbek, de cserébe sokkal hatékonyabb és észrevehetetlenebb ellenséges mintákat képesek létrehozni.

Eredeti spektrogram Perturbáció (felnagyítva) zajszerű, alacsony energiájú Ellenséges spektrogram vizuálisan szinte azonos

Támadástípusok és célok

A generált ellenséges hangminták célja szerint két fő kategóriába sorolhatók, amelyek a Red Team művelet stratégiai céljaitól függenek.

Támadás Típusa Cél Példa Forgatókönyv Nehézség
Nem célzott (Untargeted) A rendszer bármilyen, az eredetitől eltérő, hibás kimenetet adjon. Egy „ajtó nyitása” parancsot a rendszer ne ismerjen fel, vagy ismerje fel „zajként”, ezzel meghiúsítva a műveletet. Könnyebb
Célzott (Targeted) A rendszer egy konkrét, a támadó által előre meghatározott hibás kimenetet adjon. Az „ajtó nyitása” parancsot a rendszer „minden fény lekapcsolása” parancsként értelmezze, káoszt okozva. Nehezebb

A célzott támadások jelentik a nagyobb fenyegetést, hiszen lehetővé teszik a támadó számára, hogy precízen irányítsa a megtévesztett rendszer viselkedését. Míg egy nem célzott támadás egyszerűen megbéníthat egy szolgáltatást, egy célzott támadás aktívan a támadó céljainak elérésére használhatja azt.

Ez a terület a hangalapú rendszerek Achilles-sarka. Míg a hangklónozás és a deepfake hangok az emberi megtévesztésre fókuszálnak, az itt bemutatott technikák a gépi hallás alapvető mechanizmusait veszik célba. A következő fejezetben megvizsgáljuk, hogyan lehet ezeket az elveket kombinálni, és teljesen szintetikus, hamisított hangokat létrehozni, amelyek már nemcsak a gépeket, hanem az embereket is képesek átverni.