25.2.3 Statisztikai mérőszámok

2025.10.06.
AI Biztonság Blog

Honnan tudjuk, hogy egy modell valóban jól működik? A „jónak tűnik” érzés egy Red Teamer számára elfogadhatatlan. Számokra van szükségünk, amelyek objektíven mérik a teljesítményt, feltárják a rejtett gyengeségeket, és lehetővé teszik a különböző támadási vektorok hatékonyságának összehasonlítását. Ez a fejezet a legfontosabb mérőszámokat foglalja össze, amelyek nélkülözhetetlenek a mindennapi munkádban.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Klasszifikációs metrikák: A Konfúziós Mátrix boncolása

A klasszifikációs feladatok (pl. egy prompt rosszindulatú-e vagy sem) kiértékelésének alapköve a konfúziós mátrix. Neve megtévesztő lehet, de valójában a tisztánlátást szolgálja. Megmutatja, hogy a modell milyen típusú hibákat vét.

A mátrix négy alapvető elemből áll:

  • True Positive (TP): Valódi Pozitív. A modell helyesen jelölt pozitívnak egy pozitív esetet. (Például: helyesen azonosított egy veszélyes promptot.)
  • True Negative (TN): Valódi Negatív. A modell helyesen jelölt negatívnak egy negatív esetet. (Például: helyesen ártalmatlannak ítélt egy biztonságos promptot.)
  • False Positive (FP): Hamis Pozitív (I. típusú hiba). A modell tévesen jelölt pozitívnak egy negatív esetet. (Például: egy ártalmatlan promptot veszélyesnek címkézett – a „vaklárma”.)
  • False Negative (FN): Hamis Negatív (II. típusú hiba). A modell tévesen jelölt negatívnak egy pozitív esetet. (Például: egy veszélyes promptot ártalmatlannak engedett át – a legveszélyesebb hiba a Red Teaming szempontjából.)

Valós érték Modell jóslata Pozitív Negatív Pozitív Negatív TP (Valódi Pozitív) FP (Hamis Pozitív) FN (Hamis Negatív) TN (Valódi Negatív)

Pontosság (Precision) és Felidézés (Recall)

Az egyszerű pontosság (Accuracy), ami a helyes jóslatok aránya ((TP+TN)/(TP+TN+FP+FN)), gyakran félrevezető, különösen kiegyensúlyozatlan adathalmazok esetén. Ezért két sokkal informatívabb metrikát használunk:

Pontosság (Precision): A pozitívnak jósolt esetek közül mennyi volt valóban pozitív? Azt méri, mennyire bízhatunk a modell pozitív jóslatában.

Precision = TP / (TP + FP)

Analógia: Egy spam szűrő magas pontossággal működik, ha a spamnek jelölt e-mailek szinte mindegyike tényleg spam. Cserébe lehet, hogy átenged néhány spamet (alacsonyabb felidézés).

Felidézés (Recall vagy Sensitivity): Az összes valódi pozitív esetből mennyit talált meg a modell? Azt méri, hogy a modell mennyire képes „levadászni” a keresett eseteket.

Recall = TP / (TP + FN)

Analógia: Egy orvosi diagnosztikai tesztnek magas felidézésre van szüksége: az összes beteg embert azonosítania kell, még akkor is, ha ez néhány téves pozitív diagnózissal jár (alacsonyabb pontosság).

Red Teaming kontextus: Egy jailbreak detektornál a magas felidézés a legfontosabb. Nem engedhetjük meg, hogy egyetlen rosszindulatú prompt is észrevétlen maradjon (alacsony FN ráta), még akkor sem, ha ez több ártalmatlan prompt téves megjelölésével jár (magasabb FP ráta).

F1-pontszám (F1-Score)

Gyakran szükségünk van egyetlen mérőszámra, amely egyensúlyt teremt a Pontosság és a Felidézés között. Erre szolgál az F1-pontszám, amely a két metrika harmonikus középértéke. Különösen hasznos, mert erősen bünteti a két érték közötti extrém eltéréseket.

F1-Score = 2 * (Precision * Recall) / (Precision + Recall)

Regressziós metrikák: Amikor a számok számítanak

Regressziós feladatoknál nem kategóriákat, hanem folytonos értékeket jósolunk (pl. egy szöveg toxicitási pontszáma 0 és 1 között). Itt a hiba mértékét kell számszerűsítenünk.

Átlagos Abszolút Hiba (Mean Absolute Error – MAE)

A legegyszerűbben értelmezhető metrika. A jóslatok és a valós értékek közötti abszolút különbségek átlaga. Közvetlenül megmutatja, hogy a modell átlagosan mennyivel „téved”.

MAE = (1/n) * ∑ |y_i – ŷ_i|

Ahol n a minták száma, y_i a valós érték, ŷ_i pedig a modell jóslata.

Átlagos Négyzetes Hiba (Mean Squared Error – MSE)

Hasonló a MAE-hez, de a hibákat négyzetre emeli az átlagolás előtt. Ennek következtében a nagyobb hibákat aránytalanul jobban „bünteti”. Ez hasznos, ha a nagy kiugró hibák különösen kerülendők.

MSE = (1/n) * ∑ (y_i – ŷ_i)2

Hátránya, hogy a mértékegysége a jósolt érték mértékegységének négyzete, ami nehezíti az értelmezést.

Négyzetes Átlaghiba Gyöke (Root Mean Squared Error – RMSE)

Az MSE problémáját oldja meg azzal, hogy a végén négyzetgyököt vonunk. Az eredmény így visszakerül az eredeti mértékegységbe, tehát könnyebben értelmezhető (hasonlóan a MAE-hez), miközben megőrzi az MSE nagy hibákat büntető tulajdonságát.

RMSE = √( (1/n) * ∑ (y_i – ŷ_i)2 )

Görbe alatti terület (AUC-ROC): A teljesítmény küszöbökön át

Sok klasszifikációs modell nem csak egy „igen/nem” címkét ad, hanem egy valószínűséget (pl. „85% eséllyel ez a prompt veszélyes”). A döntési küszöb (pl. 50%) megváltoztatásával finomhangolhatjuk a modell viselkedését a Pontosság és Felidézés között. A ROC (Receiver Operating Characteristic) görbe ezt a kompromisszumot vizualizálja.

A görbe a Valódi Pozitív Rátát (TPR, ami megegyezik a Felidézéssel) ábrázolja a Hamis Pozitív Ráta (FPR = FP / (FP + TN)) függvényében, a döntési küszöbérték változtatása mellett.

Valódi Pozitív Ráta (TPR) Hamis Pozitív Ráta (FPR) ROC Görbe Véletlen (AUC=0.5) Jó modell (AUC > 0.5) AUC ≈ 0.9

A tökéletes modell görbéje a bal felső sarokba (FPR=0, TPR=1) futna. A véletlen tippelés egy egyenes átlót eredményez. Az AUC (Area Under the Curve – Görbe alatti terület) ennek a görbének a területét méri. Értéke 0.5 (véletlen) és 1.0 (tökéletes) között van. Az AUC egyetlen, robusztus szám, ami összefoglalja a modell teljesítményét az összes lehetséges küszöbértéken.