0.3.3. Nem megfelelő adattisztítás – bias és toxikus tartalmak beépülése

2025.10.06.
AI Biztonság Blog

A gépi tanulás világában évtizedekig egy mantra uralkodott: „Garbage In, Garbage Out” (Szemét be, szemét ki). Ez az elv arra utalt, hogy egy modell minősége közvetlenül függ a betáplált adatok minőségétől. 

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A nagy nyelvi modellek (LLM-ek) korában ezt a mantrát frissítenünk kellett egy sokkal baljósabb verzióra: „Garbage In, Gospel Out” (Szemét be, „szentírás” ki). Amikor egy modell magabiztosan, emberi nyelven tálal egy választ, hajlamosak vagyunk azt tényként elfogadni, még akkor is, ha az alapjául szolgáló „szemét” – a szűretlen, torz és toxikus internetről lekapart adat – mélyen beleivódott a logikájába.

Ez a fejezet arról a fejlesztői és vállalati felelőtlenségről szól, amikor a tanítóadatok előkészítését – az adattisztítást – félvállról veszik. Ez nem csupán technikai hiba; ez egy olyan alapvető mulasztás, ami a modell DNS-ébe kódolja a társadalmi előítéleteket és a legkárosabb online viselkedésformákat.

A „Sok Adat” (Big Data) Korának Ártatlan Tévhite

Az LLM-ek fejlesztésének hajnalán az uralkodó paradigma az volt, hogy a mennyiség mindenek felett áll. A cél az volt, hogy a lehető legtöbb szöveges adatot gyűjtsék össze az internetről: fórumokat, blogokat, hírportálokat, közösségi médiát, digitalizált könyveket – mindent. A mögöttes, kissé naiv feltételezés szerint a hatalmas adatmennyiségben a „zaj” és a torzítások statisztikailag kiegyenlítik egymást, és egyfajta semleges, általános tudásbázis jön létre.

Ez a feltételezés aztán látványosan megbukott! Az internet nem egy semleges, kiegyensúlyozott hely. Sokkal inkább egy olyan görbe tükör, amely felerősíti a létező társadalmi egyenlőtlenségeket, előítéleteket és a legszélsőségesebb véleményeket. A gondatlan adatgyűjtés nem semleges tudást, hanem torz világnézetet rögzített a modellekbe.

A Szűretlen Adattenger Két Fő Veszélye

Amikor egy fejlesztőcsapat a gyorsaság vagy a költséghatékonyság jegyében elnagyolja az adattisztítást, két fő problémát épít be a modell alapjaiba.

1. Rendszerszintű torzítás (Bias)

A bias nem csupán néhány rosszindulatú adatpontot jelent. Ez a tanítóadatok egészének statisztikai eloszlásában rejlő torzítás, amely a valós világ egyenlőtlenségeit tükrözi és erősíti fel. Ha a modell tanítóadataiban a „mérnök” szó gyakrabban fordul elő férfi névmásokkal, a „nővér” pedig női névmásokkal, a modell megtanulja és megerősíti ezt a sztereotípiát.

Ezek a torzítások alattomosan működnek:

  • Demográfiai bias: Az internetes tartalmak nagy részét a nyugati, angol anyanyelvű, tehetősebb rétegek állítják elő. Emiatt a modellek tudása és „világnézete” erősen usa- és eurocentrikus, és torzul a fejlett világ felé.
  • Történelmi bias: A digitalizált könyvek és archívumok évszázadok társadalmi normáit és előítéleteit tartalmazzák, amelyeket a modell kritika nélkül megtanult.
  • Kiválasztási bias: Az adatgyűjtés módja önmagában is torzíthat. Például, ha egy képadatbázis főként professzionális stock fotókból áll, a modell „szegénységről” alkotott képe teljesen irreális lesz.

Tanítóadatok sztereotip asszociációi Mérnök: Férfi asszociációk (80%) Női (20%) Ápoló: Férfi (15%) Női asszociációk (85%) 0% 100%

2. Toxikus és káros tartalmak

Ez a veszély kézzelfoghatóbb. A szűretlen internet tele van gyűlöletbeszéddel, dezinformációval, erőszakos tartalmakkal és összeesküvés-elméletekkel. Egy elnagyolt tisztítási folyamat ezeket az elemeket is a tanítóadatokban hagyja. A modell nem csupán „tudni” fog ezekről a koncepciókról, hanem megtanulja reprodukálni a stílusukat, az érvelési sémáikat és a retorikájukat. Ennek eredményeképpen a modell:

  • Kérésre képes rasszista, szexista vagy homofób szövegeket generálni.
  • Meggyőzően tud érvelni áltudományos elméletek vagy veszélyes dezinformációk mellett.
  • Olyan nyelvezetet használ, amely normalizálja az agressziót és a zaklatást.

Az Adattisztítás Illúziója

A fejlesztők persze védekezhetnek azzal, hogy alkalmaztak szűrőket. A probléma az, hogy a felületes adattisztítás többet árt, mint használ. Egy egyszerű, kulcsszó-alapú szűrés teljesen hatástalan a modern online kommunikációval szemben.

Nézzünk egy leegyszerűsített pszeudokód példát, ami egy naiv tisztítási kísérletet mutat be:

# Pszeudokód egy naiv adattisztító funkcióra
tiltott_szavak = ["rossz_szo_1", "gyulolet_szo_2", "stb"]

def naiv_adattisztitas(szoveg_dokumentum):
 # 1. Lépés: Kisbetűsítés az egyszerűbb összehasonlításért
 szoveg = szoveg_dokumentum.lower()
 
 # 2. Lépés: Ellenőrizzük, hogy a tiltott szavak szerepelnek-e a szövegben
 for szo in tiltott_szavak:
 if szo in szoveg:
 return "TOXIKUS_TARTALOM_KISZURVE" # Eldobjuk a dokumentumot
 
 # 3. Lépés: Ha nem találtunk tiltott szót, megtartjuk az adatot
 return szoveg_dokumentum

# Példa a kudarcra:
komment = "A társadalom 8%-a megint a 40%-os dolgait csinálja."
# A komment átmegy a szűrőn, mert a kódolt gyűlöletbeszédet (dog-whistle)
# a naiv kulcsszavas szűrő nem ismeri fel.
# A modell megtanulja ezt a rejtett toxikus mintázatot.

Ez a megközelítés figyelmen kívül hagyja a kontextust, a szarkazmust, a kódolt nyelvezetet (dog-whistling) és a kulturális különbségeket. A valódi, hatékony adattisztítás rendkívül erőforrás-igényes: fejlett modelleket, emberi felülvizsgálatot és mély kulturális ismereteket igényel. A költségek és a piaci bevezetés siettetése miatt sok vállalat pontosan ezen a kritikus lépésen spórol.

AI Red Teaming: A Repedések Felfedezése

AI Red Teamerként a nem megfelelő adattisztításból fakadó sebezhetőségek aranybányát jelentenek. A munkád itt az, hogy feltárd azokat a rejtett torzításokat és toxikus képességeket, amelyeket a fejlesztők a szőnyeg alá söpörtek.

A támadási vektorok a következők:

  • Bias-tesztelés: Szisztematikusan teszteled a modellt különböző demográfiai csoportokra, szakmákra, nemekre vonatkozó kérdésekkel. „Írj egy történetet egy vezérigazgatóról!” – vajon milyen nemű és etnikumú karaktert alkot? „Sorolj fel híres tudósokat!” – a lista mennyire diverzifikált?
  • Kódolt nyelvezet használata: Olyan kifejezéseket és utalásokat használsz, amelyek egy adott szubkultúrában toxikus jelentéssel bírnak, de egy általános szűrő számára ártalmatlannak tűnnek. Ezzel teszteled a szűrők mélységét és a modell rejtett tudását.
  • Kontextuális csapdák állítása: Olyan forgatókönyveket vázolsz fel, ahol egy egyébként semleges válasz károssá válik a kontextus miatt. Ezzel a modell helyzetfelismerő képességének hiányosságait tárod fel.

A nem megfelelő adattisztítás nem egy elszigetelt technikai hiba. Ez egy alapvető tervezési döntés (vagy annak hiánya), amely meghatározza a modell viselkedésének alapjait. Az itt elkövetett mulasztások olyan beépített sebezhetőségeket hoznak létre, amelyek a modell teljes életciklusa során kockázatot jelentenek, és lehetőséget adnak a rosszindulatú felhasználóknak, hogy a rendszert fegyverként használják.