33.5.2 Időbeli koherencia ellenőrzése

2025.10.06.
AI Biztonság Blog

Gondolj egy filmforgatásra. A folytonossági asszisztens (script supervisor) legfőbb feladata, hogy a júliusban felvett jelenetben a pohár ugyanott álljon az asztalon, mint a szeptemberben rögzített folytatásában. A deepfake generátoroknak nincs ilyen asszisztensük. Gyakran képkockáról képkockára dolgoznak, és ez a rövid távú „memória” súlyos árulkodó jeleket hagy maga után az idő múlásával.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Az időbeli koherencia vizsgálata pontosan ezt a gyengeséget használja ki. Ahelyett, hogy egyetlen statikus képkockát analizálnánk, a videó- vagy hangfolyam időbeli dimenzióját vesszük górcső alá. A való világot fizikai törvények kötik, amelyek konzisztenciát kényszerítenek ki: a fények, árnyékok, tárgyak és hangok nem változnak meg varázsütésre egyik pillanatról a másikra. A szintetikus média azonban gyakran elbukik ezen a teszten.

Vizuális inkoherencia: Amikor a pixelek „felejtenek”

A képkockánkénti generálás vagy a rövid videószegmensek összefűzése finom, de észrevehető anomáliákat eredményezhet. Ezek a hibák gyakran túl aprók ahhoz, hogy a felületes szemlélő észrevegye őket, de egy célzott elemzés számára ordítóak lehetnek.

  • Fények és árnyékok játéka: Egy arcra vetülő árnyéknak követnie kell a fej mozgását és a fényforrás pozícióját. A generált videókban az árnyékok gyakran „remegnek”, vagy egy-egy képkockára természetellenes szögbe ugranak, ahogy a modell próbálja „kitalálni” a helyes megvilágítást.
  • Reflexiók és csillogások: A szemüveglencsén vagy a szemen tükröződő fényeknek konzisztensen kell mozogniuk a környezettel. Ha egy tükröződés ugrál, vagy nem felel meg a látható környezetnek, az erős gyanúra ad okot.
  • Stabil jegyek instabilitása: Egy anyajegy, egy sebhely vagy egy jellegzetes bőrhiba nem tűnhet el, majd bukkanhat fel újra néhány képkockával később. A generátorok néha „elfelejtik” ezeket a részleteket, különösen, ha a fej elfordul, és a jegy ideiglenesen kikerül a képből.
  • Háttér-stabilitás: Figyeld a háttérben lévő mintákat (pl. egy csíkos ing, egy tapéta). A szintetizálás során ezek a minták enyhén torzulhatnak, „úszhatnak” vagy hullámozhatnak képkockáról képkockára, ahogy a modell a fő témára (az arcra) koncentrál, a környezetet pedig elhanyagolja.

A technikai megközelítés: Optikai áramlás és jellemzőkövetés

Ezeknek a finom hibáknak a detektálására automatizált módszereket használunk. Az egyik leghatékonyabb eszköz az optikai áramlás (optical flow) elemzése. Ez a technika azt méri, hogy az egyes pixelek vagy pixelcsoportok hogyan mozdulnak el az egymást követő képkockák között.

Egy valós videóban a szomszédos pixelek jellemzően együtt mozognak (pl. az orr pixelei együtt mozognak az arc többi részével). Egy deepfake esetében, ahol egy anyajegy „remeg” az arcon, az optikai áramlási vektorai eltérnek a környező bőrfelület vektoraitól. Ez egy azonnal detektálható anomália.

Frame t Jellemző Frame t+1 Arc mozgása Inkoherens jellemző

# Pszeudokód az inkoherens mozgás detektálására
# Cél: Egy anyajegy (jellemző) mozgásának összevetése az arc mozgásával

def idobeli_koherencia_vizsgalat(video_stream):
 # Jellemző (pl. anyajegy) és környezet (pl. arc) kijelölése az első képkockán
 jellemzo_roi = kivalaszt_jellemzot(video_stream.get_frame(0))
 kornyezet_roi = kivalaszt_kornyezetet(video_stream.get_frame(0))

 for i in range(1, len(video_stream)):
 frame_t0 = video_stream.get_frame(i-1)
 frame_t1 = video_stream.get_frame(i)

 # Optikai áramlás számítása a két képkocka között
 jellemzo_vektor = szamol_optikai_aramlast(frame_t0, frame_t1, jellemzo_roi)
 kornyezet_vektor = szamol_optikai_aramlast(frame_t0, frame_t1, kornyezet_roi)

 # A mozgásvektorok közötti szögeltérés és hosszkülönbség vizsgálata
 eltérés = vektor_kulonbseg(jellemzo_vektor, kornyezet_vektor)

 # Ha az eltérés meghalad egy küszöbértéket, az gyanús
 if eltérés > KÜSZÖB:
 return "Időbeli inkoherencia detektálva a(z) {i}. képkockánál!"

 return "A videó időben koherensnek tűnik."

Auditív koherencia: A hanghullámok emlékezete

A koncepció a hangra is kiterjeszthető. Egy klónozott hangnak nemcsak a beszélő orgánumát kell utánoznia, hanem a környezetet is, amelyben elhangzik.

Anomália Típusa Leírás Detektálási Módszer
Háttérzaj ugrás A konzisztens háttérzaj (pl. légkondi zúgása, számítógép ventilátora) hirtelen megváltozik vagy eltűnik két mondat között. Spektrogram elemzés, a zajprofil konzisztenciájának mérése az időben.
Visszhang változás A hang akusztikai jellemzői (visszhang, lecsengés) megváltoznak a felvétel közben, mintha a beszélő hirtelen egy másik szobába került volna. Impulzusválasz-analízis rövid időablakokon, a reverberációs jellemzők összehasonlítása.
Lélegzetvétel anomáliák A lélegzetvételek természetellenesen szabályosak, hiányoznak, vagy a hangjuk nem illeszkedik a környezeti akusztikához. Lélegzetvétel-szegmensek detektálása és statisztikai elemzése (időzítés, hangerő).

Red Teaming perspektíva

Az időbeli koherencia ellenőrzése egy rendkívül erős eszköz a Red Teaming arzenálban, mert a fizika alapvető törvényeit kéri számon a generatív modelleken. Míg egy modell megtanulhat egy arcot fotorealisztikusan renderelni egy képkockán, sokkal nehezebb feladat számára egy másodpercekig tartó, fizikailag konzisztens mozgássorozatot fenntartani.

A támadásokat tervezve érdemes olyan szcenáriókat előnyben részesíteni, ahol a célpont mozgásban van, vagy komplex, tükröződő felületek (pl. szemüveg) láthatók rajta. Ezek a helyzetek maximalizálják az időbeli inkoherenciák előfordulásának esélyét, megkönnyítve a detektálást.