25.1.1. AI és ML alapfogalmak

2025.10.06.
AI Biztonság Blog

Ez a szekció nem egy teljeskörű akadémiai disszertáció, hanem egy harctéri szótár. Azokat az alapvető mesterséges intelligencia (AI) és gépi tanulási (ML) fogalmakat gyűjtöttük össze, amelyekkel egy Red Team operáció során garantáltan találkozni fogsz. A cél a gyors tájékozódás és a közös nyelv megteremtése.

Az alapvető hierarchia: AI, ML, DL

Gyakori hiba a fogalmak összekeverése. A valóságban egy egymásba ágyazott rendszerről van szó, ahol a Mesterséges Intelligencia a legszélesebb kategória.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Mesterséges Intelligencia (AI) Bármilyen gép, ami emberi intelligenciát szimulál. Gépi Tanulás (ML) Adatokból tanuló algoritmusok. Mélytanulás (DL)
A Mesterséges Intelligencia, a Gépi Tanulás és a Mélytanulás viszonya.

Mesterséges Intelligencia (Artificial Intelligence – AI)

A tág ernyőfogalom, amely minden olyan technológiát lefed, ahol egy gép képes emberi intelligenciát igénylő feladatokat ellátni, mint például a problémamegoldás, tanulás vagy tervezés. Ide tartoznak a szabályalapú rendszerek és a szimbolikus logika is, nem csak a gépi tanulás.

Gépi Tanulás (Machine Learning – ML)

Az AI egy alága, amely arra fókuszál, hogy a számítógépek explicit programozás nélkül, adatokból tanulva legyenek képesek feladatokat végrehajtani. Ahelyett, hogy minden szabályt előre beprogramoznánk, a rendszer mintázatokat keres a bemeneti adatokban, és ezek alapján hoz döntéseket vagy jóslatokat.

Mélytanulás (Deep Learning – DL)

Az ML egy specializált területe, amely többrétegű neurális hálózatokat (ún. mély neurális hálózatokat) használ. Különösen hatékony a komplex mintázatok felismerésében, például képeken, hangokban vagy természetes nyelvi szövegekben. A mai modern AI rendszerek (pl. LLM-ek) szinte kivétel nélkül mélytanulásra épülnek.

A gépi tanulás típusai

A modellek tanításának módja alapvetően meghatározza képességeiket és sebezhetőségeiket. Red Teamerként kulcsfontosságú tudnod, milyen típusú tanulással állsz szemben.

Típus Angol név Alapgondolat Red Teaming vonatkozás
Felügyelt tanulás Supervised Learning A modell címkézett adatokon tanul. Minden adatponthoz tartozik egy „helyes válasz”. (Pl. képek kutyákról és macskákról, ahol minden kép meg van címkézve.) A címkék minősége kritikus. Rosszindulatú, félrecímkézett adatokkal (adatmérgezés) a modell megtéveszthető.
Felügyelet nélküli tanulás Unsupervised Learning A modell címkézetlen adatokban keres rejtett struktúrákat, mintázatokat. (Pl. vásárlói csoportok azonosítása vásárlási szokások alapján.) Anomáliadetektálásra használják. A támadó megpróbálhatja a rosszindulatú tevékenységet egy „normális” klaszterbe olvasztani.
Megerősítéses tanulás Reinforcement Learning A modell (ágens) egy környezetben próbálkozik, és a cselekedeteiért jutalmat vagy büntetést kap. A cél a jutalom maximalizálása. (Pl. egy AI, ami megtanul sakkozni.) A jutalmazási funkció manipulálása (reward hacking) a rendszer nem kívánt viselkedését eredményezheti. Az ágens kihasználhatja a szimulációs környezet hibáit.

Gyakori modellek és architektúrák

Nagy Nyelvi Modell (Large Language Model – LLM)

Olyan mélytanulási modell, amelyet hatalmas mennyiségű szöveges adaton tanítottak be. Képes emberihez hasonló szöveget generálni, összefoglalni, fordítani és kérdésekre válaszolni. Az AI Red Teaming jelenlegi fókuszterülete.

Transzformátor (Transformer Architecture)

Az az idegi hálózati architektúra, amely a modern LLM-ek (pl. GPT sorozat) alapját képezi. Különlegessége az „attention” (figyelmi) mechanizmus, amely lehetővé teszi a modell számára, hogy a bemeneti szöveg különböző részei közötti kapcsolatokat és fontosságot mérlegelje.

Generatív Ellenséges Hálózat (Generative Adversarial Network – GAN)

Két neurális hálózatból álló rendszer: egy Generátorból és egy Diszkriminátorból. A Generátor hamis adatokat (pl. képeket) próbál létrehozni, a Diszkriminátor pedig megpróbálja megkülönböztetni a valódit a hamistól. Versengésük eredményeként a Generátor egyre realisztikusabb adatokat hoz létre. Deepfake videók készítésére is használják.

Diffúziós Modell (Diffusion Model)

Generatív modell, amely egy rendezett adatból (pl. kép) kiindulva fokozatosan zajt ad hozzá, amíg az teljesen felismerhetetlenné nem válik. Ezután megtanulja visszafordítani ezt a folyamatot, azaz tiszta zajból képes létrehozni egy új, koherens adatpontot. A mai csúcskategóriás képgenerátorok (pl. Midjourney, Stable Diffusion) ezt a technológiát használják.

Kulcsfontosságú folyamatok és fogalmak

Tanítás / Képzés (Training)

Az a folyamat, amely során a modell egy adathalmazon „tanul”. A modell belső paramétereit (súlyait) addig finomítja, amíg a kimenete a lehető legpontosabb nem lesz a tanítóadatok alapján. Ez egy rendkívül számításigényes folyamat.

Következtetés (Inference)

A betanított modell használata új, korábban nem látott adatokon. Amikor egy LLM-nek kérdést teszel fel, az inferencia történik. Ez sokkal gyorsabb, mint a tanítás, de még mindig jelentős erőforrásokat igényelhet.

Finomhangolás (Fine-tuning)

Egy már előtanított, általános célú modell (pl. egy alap LLM) tovább tanítása egy kisebb, specifikus adathalmazon. Ezzel a modellt egy adott feladatra vagy szakterületre lehet specializálni anélkül, hogy nulláról kellene tanítani.

# Pszeudokód a finomhangolás logikájára
# 1. Alapmodell betöltése
alap_modell = load_pretrained_model("general-llm-base")

# 2. Specifikus adathalmaz betöltése (pl. belső céges dokumentumok)
specifikus_adatok = load_dataset("ceges_wiki_adatok.json")

# 3. A modell "finomhangolása" az új adatokon
# A modell súlyai kis mértékben módosulnak, hogy jobban illeszkedjenek a specifikus adatokhoz.
finomhangolt_modell = alap_modell.fine_tune(
 dataset=specifikus_adatok,
 epochs=3, # Hányszor fusson végig az adathalmazon
 learning_rate=0.0001 # Milyen "óvatosan" módosítsa a súlyokat
)

# 4. A specializált modell mentése és használata
finomhangolt_modell.save("ceges-chatbot-modell")

Prompt

Az a szöveges bemenet (utasítás, kérdés, példa), amelyet a felhasználó egy generatív AI modellnek ad. A prompt minősége és szerkezete drasztikusan befolyásolja a modell kimenetének minőségét. A „prompt engineering” és a „prompt injection” támadások központi eleme.

Embedding (Beágyazás)

Szavak, mondatok vagy akár egész dokumentumok numerikus reprezentációja, egy többdimenziós vektorként. A modellek nem szöveggel, hanem ezekkel a vektorokkal dolgoznak. A hasonló jelentésű szavak vektorai „közel” helyezkednek el ebben a többdimenziós térben. Ez teszi lehetővé a szemantikai keresést és a kontextus megértését.

Túltanulás (Overfitting)

Amikor a modell túlságosan „bemagolja” a tanítóadatokat, beleértve azok zaját és sajátosságait is. Ennek eredményeként a tanító adathalmazon kiválóan teljesít, de új, ismeretlen adatokon rosszul általánosít. Olyan, mint a diák, aki a tankönyvet kívülről tudja, de alkalmazni nem képes a tudását.

Alultanulás (Underfitting)

A túltanulás ellentéte. A modell túl egyszerű, és nem képes megragadni a tanítóadatok alapvető mintázatait sem. Ennek eredményeként mind a tanító, mind az új adatokon rosszul teljesít.