11.1.3 Vízjel eltávolítás

2025.10.06.
AI Biztonság Blog

A generált képek eredetének nyomon követése és a visszaélések megakadályozása érdekében a modellszolgáltatók egyre gyakrabban folyamodnak vízjelek alkalmazásához. Ez a digitális aláírás azonban egyfajta csatatérré vált, ahol a védekező mechanizmusok és az azokat megkerülni próbáló technikák folyamatosan fejlődnek. Red teamerként a feladatunk feltérképezni ezen védelmi vonalak sebezhetőségeit, és a vízjel-eltávolítási kísérletek pontosan ezt a célt szolgálják.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Nem csupán arról van szó, hogy egy logót eltüntetünk egy képről. A modern vízjelezés gyakran a kép láthatatlan, perceptuális tulajdonságaiban rejlik, beágyazódva a modell generálási folyamatába. A támadásoknak is ehhez kell alkalmazkodniuk.

A vízjelek két frontvonala: Látható és Láthatatlan

A támadási stratégiánk alapvetően attól függ, milyen típusú vízjellel állunk szemben. A kettő közötti különbség ég és föld.

Látható vízjelek: A felszíni védelem

Ezek a legismertebbek: egy logó, egy szöveg vagy egy ismétlődő minta, ami a képen vizuálisan megjelenik. Bár elrettentőek lehetnek, technikailag ezek a legkönnyebben támadhatóak. A diffúziós modellek egyik alapvető képessége, az inpainting (tartalomérzékeny kitöltés), szinte triviálissá teszi az eltávolításukat.

A folyamat egyszerű: a red teamer maszkolja a vízjel területét, majd egy prompt segítségével utasítja a modellt, hogy töltse ki a hiányzó részt a környező képi információk alapján. Mivel a modell a valósághű képek eloszlására van tanítva, a kitöltés zökkenőmentes és nehezen észrevehető.

Láthatatlan (szteganográfiai) vízjelek: A mélységi védelem

Itt kezdődik az igazi kihívás. A láthatatlan vízjelek olyan finom, emberi szem számára észrevehetetlen mintázatokat vagy statisztikai anomáliákat ágyaznak a képbe, amelyeket speciális algoritmusok képesek detektálni. 

Ezeket többféleképpen lehet implementálni:

  • Pixel-térbeli manipuláció: A kép RGB értékeinek minimális módosítása egy adott minta szerint.
  • Frekvencia-térbeli beágyazás: Az információt a kép diszkrét koszinusz transzformáltjának (DCT) vagy más frekvencia-reprezentációjának együtthatóiba rejtik. Ez ellenállóbb a vágással vagy átméretezéssel szemben.
  • Latens térbeli vízjelezés: A legkifinomultabb módszer, ahol a vízjel már a generálási folyamat során, a diffúziós modell latens terében kerül beágyazásra. Ezt a legnehezebb eltávolítani anélkül, hogy a kép minősége jelentősen ne romlana.

Ezek a módszerek sokkal robusztusabbak, mert a kép szerves részét képezik. Az eltávolításukhoz már nem elég egy egyszerű maszkolás.

Támadási Vektorok Láthatatlan Vízjelek Ellen

A rejtett vízjelek feltörése komolyabb arzenált igényel. A célunk olyan transzformáció alkalmazása, amely megsemmisíti a vízjel-jelet, miközben a kép vizuális minőségét a lehető legkevésbé rontja.

1. Alapvető képmanipulációs támadások (Perturbációk)

Ezek a legegyszerűbb, „brute-force” jellegű próbálkozások. 

Sok gyengébb vízjel nem éli túl az alábbi transzformációkat:

  • Újratömörítés: A kép mentése egy alacsonyabb minőségű JPEG formátumban gyakran tönkreteszi a frekvencia-térbeli jeleket.
  • Átméretezés és vágás: A kép méretének megváltoztatása vagy egy részének levágása megzavarhatja a globális mintázatokat.
  • Zaj hozzáadása: Egy kis mértékű Gauss-zaj hozzáadása, majd egy denoiser szűrővel való eltávolítása „kimossa” a finom vízjel-információt.
  • Színterek közötti konverzió: Az RGB-ből YUV-ba, majd vissza konvertálás szintén okozhat adatvesztést, ami a vízjel sérüléséhez vezethet.

2. Diffúziós „tisztítás” (Purification)

Ez egy sokkal célzottabb és hatékonyabb technika, amely magát a diffúziós modellt fordítja a vízjel ellen. A folyamat lényege, hogy a vízjellel ellátott képet „visszajuttatjuk” a diffúziós folyamatba, majd hagyjuk, hogy a modell „újragenerálja” azt.

A diffúziós tisztítás folyamata

Vízjeles kép Zajos kép „Tiszta” kép + Zaj hozzáadása Denoising (Modell)

A modell a zajos képből megpróbálja rekonstruálni a legvalószínűbb eredeti képet a tanult adateloszlása alapján. Mivel a láthatatlan vízjel egy alacsony valószínűségű, mesterséges anomália ebben az eloszlásban, a modell a denoise folyamat során hajlamos „elfelejteni” vagy kisimítani azt, és egy vízjel nélküli, de vizuálisan szinte azonos képet generálni.

def diffusion_purify(watermarked_image, model, noise_level=0.1, steps=20):
 # 1. Kép átalakítása a modell által értelmezhető tenzorrá
 latents = image_to_latents(watermarked_image)

 # 2. Meghatározott mértékű zaj hozzáadása
 noise = torch.randn_like(latents)
 noisy_latents = latents * (1 - noise_level) + noise * noise_level
 
 # 3. A zajos kép "denoising"-ja a modell segítségével
 # A folyamatot nem a nulláról, hanem egy köztes zajos állapotból indítjuk
 scheduler.set_timesteps(steps)
 start_step = int(steps * noise_level)
 
 for t in scheduler.timesteps[start_step:]:
 noisy_latents = scheduler.step(model(noisy_latents, t), t, noisy_latents).prev_sample

 # 4. A "megtisztított" latens tér visszaalakítása képpé
 purified_image = latents_to_image(noisy_latents)
 return purified_image

AI Red Teaming Gyakorlat és Védekezési Stratégiák

Red teamerként a vízjel-eltávolítási tesztek célja a rendszer robusztusságának felmérése. 

A folyamat általában a következő lépésekből áll:

  1. Generálás és verifikálás: Létrehozunk egy képet a célrendszerrel, majd egy detektorral ellenőrizzük, hogy a vízjel jelen van-e.
  2. Támadás: Alkalmazzuk a fentebb részletezett támadási vektorok egy vagy több kombinációját (pl. enyhe átméretezés, majd diffúziós tisztítás).
  3. Újraverifikálás: A támadott képen újra lefuttatjuk a detektort. Ha a detektor már nem ismeri fel a vízjelet, a támadás sikeres volt.
  4. Jelentés: Dokumentáljuk a sikeres támadási láncot, a felhasznált paramétereket (pl. zajszint, lépésszám), és javaslatot teszünk a védelem megerősítésére.

A védekező oldal számára a tanulság az, hogy a vízjelnek ellenállónak kell lennie ezekkel a transzformációkkal szemben. 

A robusztusabb vízjelezési technikák gyakran a modellt magát is bevonják a védelembe, például úgy tanítják, hogy a generálás során megőrizze a vízjel-információt még akkor is, ha a bemenet zajos! 

Ez egy klasszikus fegyverkezési verseny, ahol a támadási és védekezési technikák egymást ösztönzik fejlődésre.

Támadási módszerek összefoglaló táblázata
Támadási Vektor Célpont Bonyolultság Hatékonyság
Inpainting Látható vízjelek Alacsony Nagyon magas
Perturbációk (vágás, tömörítés) Gyenge, láthatatlan vízjelek Alacsony Változó
Diffúziós tisztítás Kifinomult, láthatatlan vízjelek Közepes Magas
Modell finomhangolás Latens térbeli, mélyen integrált vízjelek Magas Potenciálisan nagyon magas