Gondolj egy filmforgatásra. A folytonossági asszisztens (script supervisor) legfőbb feladata, hogy a júliusban felvett jelenetben a pohár ugyanott álljon az asztalon, mint a szeptemberben rögzített folytatásában. A deepfake generátoroknak nincs ilyen asszisztensük. Gyakran képkockáról képkockára dolgoznak, és ez a rövid távú „memória” súlyos árulkodó jeleket hagy maga után az idő múlásával.
Az időbeli koherencia vizsgálata pontosan ezt a gyengeséget használja ki. Ahelyett, hogy egyetlen statikus képkockát analizálnánk, a videó- vagy hangfolyam időbeli dimenzióját vesszük górcső alá. A való világot fizikai törvények kötik, amelyek konzisztenciát kényszerítenek ki: a fények, árnyékok, tárgyak és hangok nem változnak meg varázsütésre egyik pillanatról a másikra. A szintetikus média azonban gyakran elbukik ezen a teszten.
Vizuális inkoherencia: Amikor a pixelek „felejtenek”
A képkockánkénti generálás vagy a rövid videószegmensek összefűzése finom, de észrevehető anomáliákat eredményezhet. Ezek a hibák gyakran túl aprók ahhoz, hogy a felületes szemlélő észrevegye őket, de egy célzott elemzés számára ordítóak lehetnek.
- Fények és árnyékok játéka: Egy arcra vetülő árnyéknak követnie kell a fej mozgását és a fényforrás pozícióját. A generált videókban az árnyékok gyakran „remegnek”, vagy egy-egy képkockára természetellenes szögbe ugranak, ahogy a modell próbálja „kitalálni” a helyes megvilágítást.
- Reflexiók és csillogások: A szemüveglencsén vagy a szemen tükröződő fényeknek konzisztensen kell mozogniuk a környezettel. Ha egy tükröződés ugrál, vagy nem felel meg a látható környezetnek, az erős gyanúra ad okot.
- Stabil jegyek instabilitása: Egy anyajegy, egy sebhely vagy egy jellegzetes bőrhiba nem tűnhet el, majd bukkanhat fel újra néhány képkockával később. A generátorok néha „elfelejtik” ezeket a részleteket, különösen, ha a fej elfordul, és a jegy ideiglenesen kikerül a képből.
- Háttér-stabilitás: Figyeld a háttérben lévő mintákat (pl. egy csíkos ing, egy tapéta). A szintetizálás során ezek a minták enyhén torzulhatnak, „úszhatnak” vagy hullámozhatnak képkockáról képkockára, ahogy a modell a fő témára (az arcra) koncentrál, a környezetet pedig elhanyagolja.
A technikai megközelítés: Optikai áramlás és jellemzőkövetés
Ezeknek a finom hibáknak a detektálására automatizált módszereket használunk. Az egyik leghatékonyabb eszköz az optikai áramlás (optical flow) elemzése. Ez a technika azt méri, hogy az egyes pixelek vagy pixelcsoportok hogyan mozdulnak el az egymást követő képkockák között.
Egy valós videóban a szomszédos pixelek jellemzően együtt mozognak (pl. az orr pixelei együtt mozognak az arc többi részével). Egy deepfake esetében, ahol egy anyajegy „remeg” az arcon, az optikai áramlási vektorai eltérnek a környező bőrfelület vektoraitól. Ez egy azonnal detektálható anomália.
# Pszeudokód az inkoherens mozgás detektálására
# Cél: Egy anyajegy (jellemző) mozgásának összevetése az arc mozgásával
def idobeli_koherencia_vizsgalat(video_stream):
# Jellemző (pl. anyajegy) és környezet (pl. arc) kijelölése az első képkockán
jellemzo_roi = kivalaszt_jellemzot(video_stream.get_frame(0))
kornyezet_roi = kivalaszt_kornyezetet(video_stream.get_frame(0))
for i in range(1, len(video_stream)):
frame_t0 = video_stream.get_frame(i-1)
frame_t1 = video_stream.get_frame(i)
# Optikai áramlás számítása a két képkocka között
jellemzo_vektor = szamol_optikai_aramlast(frame_t0, frame_t1, jellemzo_roi)
kornyezet_vektor = szamol_optikai_aramlast(frame_t0, frame_t1, kornyezet_roi)
# A mozgásvektorok közötti szögeltérés és hosszkülönbség vizsgálata
eltérés = vektor_kulonbseg(jellemzo_vektor, kornyezet_vektor)
# Ha az eltérés meghalad egy küszöbértéket, az gyanús
if eltérés > KÜSZÖB:
return "Időbeli inkoherencia detektálva a(z) {i}. képkockánál!"
return "A videó időben koherensnek tűnik."
Auditív koherencia: A hanghullámok emlékezete
A koncepció a hangra is kiterjeszthető. Egy klónozott hangnak nemcsak a beszélő orgánumát kell utánoznia, hanem a környezetet is, amelyben elhangzik.
| Anomália Típusa | Leírás | Detektálási Módszer |
|---|---|---|
| Háttérzaj ugrás | A konzisztens háttérzaj (pl. légkondi zúgása, számítógép ventilátora) hirtelen megváltozik vagy eltűnik két mondat között. | Spektrogram elemzés, a zajprofil konzisztenciájának mérése az időben. |
| Visszhang változás | A hang akusztikai jellemzői (visszhang, lecsengés) megváltoznak a felvétel közben, mintha a beszélő hirtelen egy másik szobába került volna. | Impulzusválasz-analízis rövid időablakokon, a reverberációs jellemzők összehasonlítása. |
| Lélegzetvétel anomáliák | A lélegzetvételek természetellenesen szabályosak, hiányoznak, vagy a hangjuk nem illeszkedik a környezeti akusztikához. | Lélegzetvétel-szegmensek detektálása és statisztikai elemzése (időzítés, hangerő). |
Red Teaming perspektíva
Az időbeli koherencia ellenőrzése egy rendkívül erős eszköz a Red Teaming arzenálban, mert a fizika alapvető törvényeit kéri számon a generatív modelleken. Míg egy modell megtanulhat egy arcot fotorealisztikusan renderelni egy képkockán, sokkal nehezebb feladat számára egy másodpercekig tartó, fizikailag konzisztens mozgássorozatot fenntartani.
A támadásokat tervezve érdemes olyan szcenáriókat előnyben részesíteni, ahol a célpont mozgásban van, vagy komplex, tükröződő felületek (pl. szemüveg) láthatók rajta. Ezek a helyzetek maximalizálják az időbeli inkoherenciák előfordulásának esélyét, megkönnyítve a detektálást.