33.5.1 Fiziológiai jelek elemzése

2025.10.06.
AI Biztonság Blog

Mielőtt a generatív modellek kifinomulttá váltak volna, a szintetikus arcok gyakran estek a „hátborzongató völgy” (uncanny valley) csapdájába. Nem a képpontok hibáztak, hanem az, ami hiányzott belőlük: az élet. A fiziológiai jelek elemzése pontosan ezt a hiányt célozza, azokat a tudat alatti, biológiai folyamatokat keresve, amelyeket egy algoritmusnak rendkívül nehéz tökéletesen utánoznia.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A láthatatlan pulzus: Véráramlás-analízis

Az emberi bőr nem egy statikus, egyszínű felület. A szívverés által pumpált vér finom, periodikus színváltozásokat okoz az arcon, különösen a homlokon és az orcákon. Bár ez a jelenség szabad szemmel láthatatlan, egy kamera érzékelői és a megfelelő algoritmusok képesek detektálni. Ezt a technikát távoli fotopletizmográfiának (remote photoplethysmography, rPPG) nevezik.

A korai deepfake modellek egyszerűen nem szimulálták ezt a folyamatot. Az általuk generált bőrnek nem volt „pulzusa”. Egy szintetikus arcon a bőrszín vagy teljesen statikus, vagy a zaj olyan mintázatot mutat, ami nem korrelál egy emberi szívverés frekvenciájával (jellemzően 0.8–2.5 Hz között).

Egy Red Teaming feladat során az rPPG-alapú detektorok kijátszása megkövetelheti egy olyan modell trenírozását, amely explicit módon megtanul egy finom, periodikus színváltozást generálni a szintetikus arc releváns területein (ROI – Region of Interest).


// Pszeudokód a pulzus-szerű jel kinyerésére egy videóból
function extrahálj_pulzus_jelet(video_klip, homlok_roi):
 idősor = [] // Az átlagos színintenzitás tárolása időben

 for képkocka in video_klip:
 homlok_terület = képkocka.kivágás(homlok_roi)
 
 // A zöld csatorna általában a legjobb jelet adja
 átlag_zöld_intenzitás = átlag(homlok_terület.zöld_csatorna)
 idősor.append(átlag_zöld_intenzitás)

 // Az idősoron Fourier-transzformációt végzünk, hogy megtaláljuk a domináns frekvenciát
 frekvencia_spektrum = FFT(idősor)
 domináns_frekvencia = find_peak(frekvencia_spektrum, tartomány=[0.8, 2.5]) // Hz
 
 if domináns_frekvencia:
 return "Valószínűleg valós (pulzus detektálva)"
 else:
 return "Valószínűleg szintetikus (nincs pulzus)"

A szem a lélek és a GAN tükre: Pislogás és szemmozgás

A pislogás az egyik leggyakrabban emlegetett árulkodó jel. Az ember átlagosan 15-20-szor pislog percenként, de ez a szám kontextustól (pl. beszéd, koncentráció) függően változik. A korai deepfake-ek vagy egyáltalán nem, vagy rendszertelenül, természetellenesen pislogtak. A modern modellek már jobbak ebben, de a pislogás időtartama, sebessége és a két szem szinkronicitása még mindig hordozhat anomáliákat.

A szemmozgások (szakkádok) szintén kritikusak. Az emberi tekintet nem véletlenszerűen ugrál, hanem fókuszt vált, követi a tárgyakat, és a gondolkodási folyamatokat is tükrözi. A szintetikus szemmozgások gyakran túl „simák”, túl direktek, vagy éppen ellenkezőleg, céltalanul bolyonganak.

Jellemző Természetes Viselkedés Gyanús Szintetikus Viselkedés
Pislogási ráta Kontextusfüggő, kb. 15-20/perc, szabályos időközönként. Túl ritka, túl gyakori, vagy teljesen hiányzik. Merev bámulás.
Pislogás minősége Gyors, teljes szemhéjzáródás. Részleges, „remegő” vagy túl lassú pislogás.
Szemmozgás Gyors, célirányos ugrások (szakkádok), sima követő mozgások. Túl lineáris, „robotikus” mozgás; a tekintet „lebeg” a semmiben.
Pupilla A fényviszonyokra reagálva tágul és szűkül. Statikus méret, nem reagál a környezeti változásokra.

Légzés és mikrokifejezések: A finomabb jelek

A mélyebb szintű elemzés már a légzés finom jeleit is vizsgálja. Beszéd közben a mellkas és a vállak enyhén emelkednek és süllyednek. Bár ez nehezen észrevehető, a hiánya egy statikus felsőtesttel párosuló, tökéletesen artikuláló arcnál gyanúra adhat okot. Az algoritmusok képesek ezeket a periodikus mozgásokat detektálni és összevetni a hang ütemével.

A mikrokifejezések – a valódi érzelmeket eláruló, másodperc törtrészéig tartó arckifejezések – szintén a generatív modellek Achilles-sarkát jelentik. Míg egy modell képes lehet egy statikus „boldog” vagy „szomorú” arcot generálni, a valódi érzelmek dinamikus átmeneteit és az azokat kísérő apró izomrángásokat szinte lehetetlen hibátlanul reprodukálni. Ezen jelek hiánya egyfajta érzelmi ürességet, „bábu-szerűséget” eredményez, ami a fiziológiai elemzés egyik kulcsfontosságú célpontja.

Valós vs. Szintetikus Légzési Mintázat Természetes (szinuszos) Szintetikus (statikus) Idő Amplitúdó

Összefoglalva, a fiziológiai jelek elemzése egy folyamatos fegyverkezési verseny. Ahogy a detektorok kifinomultabbá válnak, úgy a generatív modelleket is egyre több élettani adattal tanítják, hogy ezeket a finom jeleket is képesek legyenek utánozni. Egy Red Teamer számára a feladat nemcsak a jelenlegi modellek hibáinak ismerete, hanem annak előrejelzése is, hogy a jövőbeli detektorok milyen új, még rejtettebb fiziológiai anomáliákat fognak keresni.