9.1.3. Döntéshozatal manipulálása

2025.10.06.
AI Biztonság Blog

Felejtsd el a hollywoodi klisét, ahol a hacker egy zöld terminálon villámgyorsan gépelve átveszi az irányítást egy autó felett. A valóság sokkal finomabb és intellektuálisan nagyobb kihívást jelent. Nem a járművet kell „feltörni”, hanem a valóságérzékelését kell úgy eltorzítani, hogy a saját, tökéletesen működő logikája alapján hozzon katasztrofális döntést. Ez nem feltörés, ez pszichológiai hadviselés egy gép ellen!

A döntési tölcsér: Az észleléstől a cselekvésig

Mielőtt belemennénk a manipuláció mikéntjébe, értsük meg, hogyan „gondolkodik” egy önvezető autó. A folyamatot leginkább egy tölcsérként lehet elképzelni, ahol a nyers adatokból egyre absztraktabb szinteken keresztül jutunk el a fizikai cselekvésig. A támadások nem a tölcsér alját, a kormányzást vagy a fékezést célozzák közvetlenül, hanem a felsőbb, absztraktabb rétegeket mérgezik meg.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Szenzoradatok Észlelési Verem Világmodell Tervezés & Vezérlés 9.1.1 Szenzor megtévesztés 9.1.2 Észlelési verem támadások EZ A MI TERÜLETÜNK: A VILÁGMODELL MANIPULÁCIÓJA

Ahogy a diagram is mutatja, az előző fejezetekben tárgyalt támadások (szenzormegtévesztés, észlelési verem támadása) a tölcsér elejét célozzák. A döntéshozatal manipulálása egy lépéssel tovább megy: ezeket a meghamisított észleléseket használja fel arra, hogy a jármű világmodelljét – a környezet belső, mentális térképét és a benne lévő objektumok viselkedésének predikcióját – torzítsa el. Ha a jármű világképe hibás, a döntései logikusak lesznek ugyan, de a valósághoz képest végzetesek.

Manipulációs vektorok: Hogyan lehet rávenni a rendszert az önpusztításra?

A támadó célja, hogy olyan helyzetet teremtsen, ahol a legbiztonságosabbnak tűnő gépi döntés a valóságban a legveszélyesebb. 

Ehhez több eszköze is van.

Költségfüggvények mérgezése (Cost Function Poisoning)

Az önvezető rendszerek az útvonaltervezés során ún. költségfüggvényeket (cost functions) használnak. Minden lehetséges manőverhez (sávváltás, gyorsítás, fékezés) hozzárendelnek egy „költséget” különböző tényezők alapján: ütközés kockázata, utazási komfort, szabályok betartása, haladási sebesség. A rendszer mindig azt az útvonalat választja, amelynek a legalacsonyabb az összköltsége.

A támadás lényege, hogy mesterségesen megnöveljük a valódi biztonságos útvonal költségét. Ezt elérhetjük egy fantom akadály generálásával (lásd 9.1.2 fejezet), ami miatt a rendszer egy másik, látszólag „olcsóbb”, de valójában veszélyesebb manővert választ.


# Pszeudokód egy egyszerűsített költségfüggvényhez

function szamol_utvonal_koltseget(utvonal):
 koltseg = 0
 
 # Kényelmi költség (pl. túl éles kanyar)
 koltseg += utvonal.gorbulet * KONSTANS_KENYELEM
 
 # Szabálysértés költsége (pl. záróvonal átlépése)
 if atlepi_a_zarovonalat(utvonal):
 koltseg += 1000 # Nagyon magas költség
 
 # Akadályokhoz való közelség költsége
 for akadaly in VILAGMODELL.eszlelt_akadalyok:
 tavolsag = tavolsag_utvonaltol(utvonal, akadaly)
 # Minél közelebb van, a költség exponenciálisan nő
 koltseg += (1 / tavolsag) * KONSTANS_BIZTONSAG
 
 return koltseg

# TÁMADÁS: A VILAGMODELL-be injektálunk egy fantom akadályt
# a biztonságos sáv közepére.
VILAGMODELL.add_akadaly(fantom_akadaly)

# Eredmény:
# A 'szamol_utvonal_koltseget' a biztonságos útvonalra
# most hatalmas költséget ad vissza a fantom akadály miatt.
# A rendszer egy másik, pl. a szembejövő sávba átlógó,
# "olcsóbb" útvonalat fog választani.
 

Predikciós modellek megtévesztése

A modern rendszerek nemcsak észlelik az objektumokat, hanem megpróbálják megjósolni a jövőbeli viselkedésüket is. Mit fog csinálni a gyalogos a zebra előtt? Be fog vágni elém a másik autó? A támadó célja ezen predikciók szisztematikus befolyásolása.

  • Hirtelen, irracionális mozgások generálása: Egy támadó által irányított drón vagy egy másik jármű szándékosan kiszámíthatatlanul mozoghat az önvezető autó közelében. Ez összezavarhatja a predikciós modellt, ami túlságosan óvatos („decision paralysis”) vagy éppen tévesen agresszív reakciót válthat ki.
  • Forgatókönyv-mérgezés: A támadó olyan komplex közlekedési helyzetet teremthet (pl. több, összehangoltan mozgó járművel), ami a rendszer egy ritkán tesztelt, „edge case” viselkedését aktiválja. Például egy szándékosan előidézett, furcsa besorolási manőver arra késztetheti a rendszert, hogy feleslegesen vészfékezzen egy forgalmas autópályán.
  • Szándék hamisítása: Egy támadó jármű indexelhet jobbra, de balra kezd mozogni. Míg egy emberi sofőr ezt gyanakvással kezelné, egy szabálykövető AI-t ez teljesen összezavarhat, és a rossz predikció alapján hozhat döntést.

AI Red Teamer perspektíva: Támadd az alapfeltevéseket!

A döntéshozatali réteg elleni sikeres támadás kulcsa nem az algoritmusok feltörése, hanem az algoritmusok alapfeltevéseinek a megsértése. 
Az AI modell feltételezi, hogy a bemeneti adatai a valóságot tükrözik. Feltételezi, hogy a többi közlekedő (többnyire) racionálisan viselkedik. A mi dolgunk Ai red teamerként az, hogy ezeket az axiómákat szisztematikusan megdöntsük!

A gondolkodásmód közötti különbség alapvető. Nem egy sebezhetőséget keresünk egy szoftverben, hanem egy logikai bukfencet egy komplex rendszer viselkedésében.

Szempont „Hollywood” Hacking AI Red Teaming (Döntéshozatal)
Célpont Operációs rendszer, hálózati protokoll, vezérlőegység (ECU). A rendszer világmodellje, költségfüggvénye, predikciós alrendszere.
Módszer Buffer overflow, SQL injection, root jogosultság szerzése. Fizikai vagy digitális inputok finomhangolt manipulációja, valóság torzítása.
Eredmény Közvetlen parancsok kiadása (pl. „Fékezz!”). A rendszer rávezetése, hogy saját maga döntsön a hibás cselekvés mellett.
Szükséges tudás Szoftver reverse engineering, hálózati biztonság. Gépitanulás-elmélet, szenzorfúzió, vezérléselmélet, pszichológia.

Végső soron a döntéshozatali réteg manipulálása egyfajta „inverz megerősítéses tanulás”. 

Nem mi tanítjuk a rendszert, hanem olyan környezetet teremtünk számára, amelyben a saját, korábban megtanult szabályai alapján garantáltan rossz következtetésre jut. 

Ez a terület az, ahol a kiberbiztonság, a gépitanulás-elmélet és a kísérleti pszichológia tudása összeér!