Honnan tudjuk, hogy egy modell valóban jól működik? A „jónak tűnik” érzés egy Red Teamer számára elfogadhatatlan. Számokra van szükségünk, amelyek objektíven mérik a teljesítményt, feltárják a rejtett gyengeségeket, és lehetővé teszik a különböző támadási vektorok hatékonyságának összehasonlítását. Ez a fejezet a legfontosabb mérőszámokat foglalja össze, amelyek nélkülözhetetlenek a mindennapi munkádban.
Klasszifikációs metrikák: A Konfúziós Mátrix boncolása
A klasszifikációs feladatok (pl. egy prompt rosszindulatú-e vagy sem) kiértékelésének alapköve a konfúziós mátrix. Neve megtévesztő lehet, de valójában a tisztánlátást szolgálja. Megmutatja, hogy a modell milyen típusú hibákat vét.
A mátrix négy alapvető elemből áll:
- True Positive (TP): Valódi Pozitív. A modell helyesen jelölt pozitívnak egy pozitív esetet. (Például: helyesen azonosított egy veszélyes promptot.)
- True Negative (TN): Valódi Negatív. A modell helyesen jelölt negatívnak egy negatív esetet. (Például: helyesen ártalmatlannak ítélt egy biztonságos promptot.)
- False Positive (FP): Hamis Pozitív (I. típusú hiba). A modell tévesen jelölt pozitívnak egy negatív esetet. (Például: egy ártalmatlan promptot veszélyesnek címkézett – a „vaklárma”.)
- False Negative (FN): Hamis Negatív (II. típusú hiba). A modell tévesen jelölt negatívnak egy pozitív esetet. (Például: egy veszélyes promptot ártalmatlannak engedett át – a legveszélyesebb hiba a Red Teaming szempontjából.)
Pontosság (Precision) és Felidézés (Recall)
Az egyszerű pontosság (Accuracy), ami a helyes jóslatok aránya ((TP+TN)/(TP+TN+FP+FN)), gyakran félrevezető, különösen kiegyensúlyozatlan adathalmazok esetén. Ezért két sokkal informatívabb metrikát használunk:
Pontosság (Precision): A pozitívnak jósolt esetek közül mennyi volt valóban pozitív? Azt méri, mennyire bízhatunk a modell pozitív jóslatában.
Analógia: Egy spam szűrő magas pontossággal működik, ha a spamnek jelölt e-mailek szinte mindegyike tényleg spam. Cserébe lehet, hogy átenged néhány spamet (alacsonyabb felidézés).
Felidézés (Recall vagy Sensitivity): Az összes valódi pozitív esetből mennyit talált meg a modell? Azt méri, hogy a modell mennyire képes „levadászni” a keresett eseteket.
Analógia: Egy orvosi diagnosztikai tesztnek magas felidézésre van szüksége: az összes beteg embert azonosítania kell, még akkor is, ha ez néhány téves pozitív diagnózissal jár (alacsonyabb pontosság).
F1-pontszám (F1-Score)
Gyakran szükségünk van egyetlen mérőszámra, amely egyensúlyt teremt a Pontosság és a Felidézés között. Erre szolgál az F1-pontszám, amely a két metrika harmonikus középértéke. Különösen hasznos, mert erősen bünteti a két érték közötti extrém eltéréseket.
Regressziós metrikák: Amikor a számok számítanak
Regressziós feladatoknál nem kategóriákat, hanem folytonos értékeket jósolunk (pl. egy szöveg toxicitási pontszáma 0 és 1 között). Itt a hiba mértékét kell számszerűsítenünk.
Átlagos Abszolút Hiba (Mean Absolute Error – MAE)
A legegyszerűbben értelmezhető metrika. A jóslatok és a valós értékek közötti abszolút különbségek átlaga. Közvetlenül megmutatja, hogy a modell átlagosan mennyivel „téved”.
Ahol n a minták száma, y_i a valós érték, ŷ_i pedig a modell jóslata.
Átlagos Négyzetes Hiba (Mean Squared Error – MSE)
Hasonló a MAE-hez, de a hibákat négyzetre emeli az átlagolás előtt. Ennek következtében a nagyobb hibákat aránytalanul jobban „bünteti”. Ez hasznos, ha a nagy kiugró hibák különösen kerülendők.
Hátránya, hogy a mértékegysége a jósolt érték mértékegységének négyzete, ami nehezíti az értelmezést.
Négyzetes Átlaghiba Gyöke (Root Mean Squared Error – RMSE)
Az MSE problémáját oldja meg azzal, hogy a végén négyzetgyököt vonunk. Az eredmény így visszakerül az eredeti mértékegységbe, tehát könnyebben értelmezhető (hasonlóan a MAE-hez), miközben megőrzi az MSE nagy hibákat büntető tulajdonságát.
Görbe alatti terület (AUC-ROC): A teljesítmény küszöbökön át
Sok klasszifikációs modell nem csak egy „igen/nem” címkét ad, hanem egy valószínűséget (pl. „85% eséllyel ez a prompt veszélyes”). A döntési küszöb (pl. 50%) megváltoztatásával finomhangolhatjuk a modell viselkedését a Pontosság és Felidézés között. A ROC (Receiver Operating Characteristic) görbe ezt a kompromisszumot vizualizálja.
A görbe a Valódi Pozitív Rátát (TPR, ami megegyezik a Felidézéssel) ábrázolja a Hamis Pozitív Ráta (FPR = FP / (FP + TN)) függvényében, a döntési küszöbérték változtatása mellett.
A tökéletes modell görbéje a bal felső sarokba (FPR=0, TPR=1) futna. A véletlen tippelés egy egyenes átlót eredményez. Az AUC (Area Under the Curve – Görbe alatti terület) ennek a görbének a területét méri. Értéke 0.5 (véletlen) és 1.0 (tökéletes) között van. Az AUC egyetlen, robusztus szám, ami összefoglalja a modell teljesítményét az összes lehetséges küszöbértéken.