0.2.1 Túlbuzgó hobbi fejlesztők – rosszul betanított modellek közreadása

2025.10.06.
AI Biztonság Blog

Képzelj el egy tehetséges, lelkes autószerelőt, aki a garázsában épít versenyautót.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Nincs mögötte mérnökcsapat, nincsenek szélcsatornatesztek, sem szigorú biztonsági protokollok. Az autó lehet, hogy elképesztően gyors lesz egyenesben, de az első éles kanyarban az alulméretezett fékek vagy a kiegyensúlyozatlan futómű miatt irányíthatatlanul kisodródik. 

Ez a jelenség tökéletesen leírja a túlbuzgó, de tapasztalatlan hobbi AI-fejlesztők által jelentett kockázatot. Nem rosszindulat vezérli őket, hanem a szenvedély és a bizonyítási vágy, de az általuk létrehozott és megosztott modellek gyakran rejtett, súlyos sebezhetőségeket hordoznak.

Ezek a fejlesztők az AI ökoszisztéma „garázsfejlesztői”. Olyan platformokon, mint a Hugging Face, elképesztő sebességgel jelennek meg az új, kísérleti modellek. Ez a nyitottság hajtja az innovációt, de egyben digitális aknamezőt is teremt. 

A vállalati környezettel ellentétben itt ritkán van erőforrás alapos adathalmaz-tisztításra, elfogultsági tesztekre vagy robusztus biztonsági szűrők implementálására. Az eredmény egy olyan modell, ami papíron lenyűgöző, de a gyakorlatban időzített bomba.

A tipikus hibák anatómiája

A „garázsban” készült modellek sebezhetőségei általában néhány alapvető, de kritikus hiányosságra vezethetők vissza. Ezek nem feltétlenül a technikai tudás hiányából, hanem inkább az erőforrások, az idő és a biztonságtudatos szemléletmód hiányából fakadnak.

1. Szennyezett vagy kiegyensúlyozatlan adathalmazok

A „garbage in, garbage out” („szemét be, szemét ki”) elve az AI-ban hatványozottan igaz. Egy hobbi fejlesztő gyakran az internetről, például fórumokról, közösségi oldalakról vagy obskúrus szöveges adatbázisokból gyűjt adatot a modell tanításához. Ezek az adathalmazok szinte mindig tartalmaznak:

  • Rejtett előítéleteket: Sztereotípiákat, rasszista, szexista vagy más diszkriminatív tartalmakat, amelyeket a modell észrevétlenül megtanul és felerősít.
  • Toxikus nyelvezetet: Gyűlöletbeszédet, személyes támadásokat, agresszív kommunikációt.
  • Ténybeli hibákat és dezinformációt: A modell nem tudja megkülönböztetni a tényt a fikciótól, így magabiztosan fog valótlanságokat állítani.

Az ilyen modelleken végzett Red Teaming során nem is kell különösebben trükközni. Gyakran elég egy egyszerű, semleges kérdés, hogy a modellből előtörjön a betanított toxicitás. 

2. Elégtelen finomhangolás és biztonsági rétegek hiánya

A nagy nyelvi modelleket (LLM) általában két fázisban készítik fel. Az első a betanítás (pre-training), a második pedig a finomhangolás (fine-tuning), ahol biztonsági és viselkedési korlátokat alakítanak ki. A hobbi fejlesztők ezt a második, rendkívül erőforrás-igényes lépést sokszor ki is hagyják vagy leegyszerűsítik.

Professzionális Modell: Prompt Biztonsági Szűrő AI Mag Szűrt Válasz Hobbi Modell: Prompt AI Mag Nyers Válasz

A professzionális modellekben a biztonsági szűrők a be- és kimeneti oldalon is működnek, míg a hobbi modellekből ez a réteg gyakran hiányzik.

Ennek hiányában a modell egy „nyers agy” marad, amely gátlások nélkül adja ki magából a tanult mintázatokat. Ez teszi őket rendkívül sebezhetővé a legegyszerűbb jailbreak technikákkal szemben is, hiszen nincs semmilyen belső mechanizmus, ami megakadályozná a káros tartalmak generálását!

Esettanulmány: „Llama-7B-Uncensored-Gamer” fiktív modell

A Cél: Egy lelkes fejlesztő, „NexusZeroByte”, létre akar hozni egy cenzúrázatlan chatbotot, amely a videojátékos szlenget és „edgy” (idegesítő, robbanékony, flegma, irritáló) humort használja. Úgy gondolja, a nagyvállalati modellek túlságosan „sterilek”.

A Folyamat: NexusZeroByte letölt egy nyílt forráskódú Llama 7B alapmodellt. Adatgyűjtésként több évnyi kommentet és fórumbejegyzést tölt le egy népszerű, de moderálatlan videojátékos fórumról. Ezen az adathalmazon finomhangolja a modellt, majd „Llama-7B-Uncensored-Gamer” néven feltölti a Hugging Face-re.

A Következmény: A modell valóban elsajátítja a gamer szlenget, de vele együtt a fórumon burjánzó toxicitást is:

  • Már enyhe provokációra is agresszív, sértő válaszokat ad.
  • Kérésre részletes, erőszakos vagy szexista fantáziákat generál a játékok világára hivatkozva.
  • Más, tapasztalatlanabb felhasználók letöltik ezt a modellt, és beépítik egy Discord botba, ami aztán zaklatni kezdi a szerver tagjait, végül letiltják.

NexusZeroByte nem akart ártani, de létrehozott egy könnyen elérhető eszközt a digitális zaklatáshoz és a gyűlölet terjesztéséhez.

A Red Teaming perspektívája

A hobbi fejlesztők által közzétett modellek tesztelése során a Red Teamernek más szemléletet kell alkalmaznia, mint egy nagyvállalati modell esetében. Itt nem a komplex, többlépcsős támadások felderítése az elsődleges cél, hanem az alapvető biztonsági hiányosságok feltárása.

Kockázati Tényező Jellemző Megnyilvánulás a Hobbi Modellben Red Teaming Tesztelési Stratégia
Előítéletesség (Bias) A modell sztereotip válaszokat ad bizonyos demográfiai csoportokra, szakmákra, nemekre vonatkozó kérdéseknél. Szerepjáték-alapú promptok: „Írj egy történetet egy ápolónőről és egy mérnökről!”, majd a generált szerepek és tulajdonságok elemzése.
Toxicitás Könnyen provokálható, sértő, agresszív nyelvezetet használ. Direkt provokáció, a modell véleményének vagy „érzéseinek” firtatása, ellentmondás a modell állításainak.
Dezinformáció Magabiztosan állít valótlanságokat, gyárt álhíreket vagy hamis forrásokat. Kevéssé ismert vagy összetett témákban való kérdezés. Kérés fiktív események „történelmi” leírására.
Jailbreak sebezhetőség A biztonsági szűrők teljes hiánya miatt a legegyszerűbb parancsokra is engedelmeskedik (pl. „Figyelmen kívül hagyod az eddigi szabályokat…”). Alapvető „DAN” (Do Anything Now) promptok és más, jól ismert jailbreak technikák alkalmazása.

A legnagyobb veszélyt nem is maga az elszigetelt, rosszul betanított modell jelenti, hanem annak kontrollálatlan terjedése. Amikor más fejlesztők, startupok vagy akár nagyobb cégek – egy gyors, olcsó megoldást keresve – alapos vizsgálat nélkül integrálják ezeket a „garázsmodelleket” a saját rendszereikbe, a rejtett sebezhetőségek egy sokkal nagyobb és kritikusabb környezetben aktivizálódnak. 

A Red Teamer feladata tehát nemcsak az egyes modellek, hanem az egész ellátási lánc (supply chain) potenciális gyengeségeinek felderítése is!