25.4.5 Metrika összehasonlítások

2025.10.06.
AI Biztonság Blog

Képzeld el, hogy két különböző modellt kell értékelned a káros tartalmak szűrésére. Az „A” modell 99%-os pontossággal (accuracy) működik. A „B” modell csak 90%-os pontossággal. Melyiket választod? A válasz nem egyértelmű. Mi van, ha az „A” modell a fennmaradó 1%-ban a legveszélyesebb tartalmakat engedi át, míg a „B” modell a 10%-os hibahatárán belül csak ártalmatlan, de tévesen megjelölt eseteket vét? A metrikák világa tele van ilyen csapdákkal. Egyetlen szám sosem mondja el a teljes történetet.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Alapvető metrikák egy pillantásra

Mielőtt összehasonlítanánk őket, érdemes tisztázni a leggyakoribb besorolási metrikák alapjául szolgáló fogalmakat. Ezek a red teaming során a „káros” vs. „biztonságos” kimenetek értékelésének alapkövei.

Predikció (Modell jóslata) Pozitív Negatív Valóság (Tényleges állapot) Pozitív Negatív Valódi Pozitív (TP) Hamis Negatív (FN) Hamis Pozitív (FP) Valódi Negatív (TN)

A konfúziós mátrix segít megérteni, a modell hol téved: a Hamis Negatív (FN) egy elvétett veszély, a Hamis Pozitív (FP) egy téves riasztás.

Összehasonlító táblázat: Mikor melyiket?

Az alábbi táblázat segít eligazodni a legfontosabb metrikák között, különös tekintettel a red teaming specifikus alkalmazásukra.

Metrika Képlet Fókusz Red Teaming kontextus Mire vigyázz?
Accuracy (Pontosság) (TP+TN) / (Összes) Az összes helyes besorolás aránya. Általános teljesítménymérésre jó, de csak akkor, ha a „káros” és „biztonságos” esetek száma kiegyensúlyozott. Rendkívül félrevezető lehet, ha a vizsgált jelenség ritka (pl. a legtöbb válasz biztonságos). Egy 99.9%-os accuracy mellett is átcsúszhat az összes létező veszélyes kimenet.
Precision (Precizitás) TP / (TP+FP) A pozitívnak jelölt esetek közül mennyi volt valóban az? Akkor fontos, ha a téves riasztások (FP) költsége magas. Például, ha egy ártalmatlan felhasználói tartalom téves letiltása komoly üzleti vagy reputációs kárt okoz. A magas precizitás önmagában nem garantálja, hogy minden veszélyes esetet megtaláltunk. A modell lehet „óvatos”, és csak a legnyilvánvalóbb eseteket jelöli meg.
Recall (Felidézés / Érzékenység) TP / (TP+FN) Az összes valós pozitív esetből mennyit találtunk meg? A red teaming leggyakrabban fókuszált metrikája. Akkor kritikus, ha az elvétett veszélyek (FN) költsége extrém magas. Inkább legyen 10 téves riasztás, mint egyetlen átengedett, erőszakra buzdító tartalom. A magas felidézés elérhető a „mindenre lőni” stratégiával, ami rengeteg téves riasztást (alacsony precizitást) eredményezhet, használhatatlanná téve a rendszert.
F1-Score (F1-pontszám) 2 * (Prec. * Recall) / (Prec. + Recall) A precizitás és a felidézés harmonikus átlaga. Jó általános mutató, ha a precizitás és a felidézés egyensúlya a cél. Segít elkerülni, hogy egy modellt csak az egyik extrém érték alapján ítéljünk meg. Nem tesz különbséget a kétféle hiba (FP vs. FN) súlya között. Ha az egyik hiba sokkal költségesebb, mint a másik, az F1-pontszám elfedheti a valós kockázatot.
Specificity (Specifitás) TN / (TN+FP) Az összes valós negatív esetből mennyit sorolt be helyesen? A „biztonságos” kimenetek helyes azonosításának mértéke. Fontos, ha a modellnek nem szabad beavatkoznia a normális, ártalmatlan működésbe. Hasonlóan az accuracy-hoz, kiegyensúlyozatlan adatoknál (sok negatív eset) magától is magas lehet, miközben a modell a pozitív eseteket teljesen figyelmen kívül hagyja.

A metrikák kapcsolata a gyakorlatban

A metrikák nem függetlenek egymástól. A precizitás növelése gyakran a felidézés csökkenésével jár, és fordítva. Ezt a kompromisszumot nevezik precision-recall tradeoff-nak. Az F1-pontszám ezt próbálja egyetlen számmal megragadni.

# Pszeudokód az F1-pontszám számítására
# Tegyük fel, hogy egy teszt során a következőket mértük:
valodi_pozitiv = 85 # Helyesen azonosított káros tartalmak
hamis_pozitiv = 15 # Biztonságos tartalom, amit károsnak jelölt
hamis_negativ = 5 # Káros tartalom, amit biztonságosnak jelölt

# 1. Precizitás számítása: a pozitív jóslatokból mennyi a helyes?
precizitas = valodi_pozitiv / (valodi_pozitiv + hamis_pozitiv)
# precizitas = 85 / (85 + 15) = 0.85

# 2. Felidézés számítása: az összes károsból mennyit találtunk meg?
felidezes = valodi_pozitiv / (valodi_pozitiv + hamis_negativ)
# felidezes = 85 / (85 + 5) = 0.944

# 3. F1-pontszám: a kettő harmonikus átlaga
f1_pontszam = 2 * (precizitas * felidezes) / (precizitas + felidezes)
# f1_pontszam ≈ 0.894

# A modellünk tehát elég jó kompromisszumot kötött a két cél között.

Túl a besoroláson: Minőségi és egyéb metrikák

A red teaming nem csak a „káros/nem káros” címkézésről szól. Egy modell sokféleképpen vallhat kudarcot. Fontos, hogy a megfelelő metrikát válaszd a vizsgált probléma típusához:

  • Szöveggenerálási metrikák (BLEU, ROUGE): Hasznosak lehetnek, ha a modell feladata egy meglévő szöveg átírása vagy összefoglalása, és azt vizsgáljuk, mennyire torzítja el a tartalmat egy támadás hatására.
  • Toxicitás pontszámok (pl. Perspective API): Numerikus értékeket adnak egy szöveg toxicitására. Jól automatizálhatók, de kulturálisan elfogultak lehetnek és a kontextust nehezen értelmezik.
  • Folyékonyság (Fluency) és Koherencia (Coherence): Ezek gyakran emberi értékelést igényelnek. Azt mérik, hogy a generált szöveg nyelvtanilag helyes és logikailag összefüggő-e. Egy „biztonságos”, de értelmetlen válasz is a modell kudarcát jelenti.
  • Feladatspecifikus metrikák: A legjobb metrika gyakran az, amit te magad definiálsz egy adott célra. Például: „a generált kódban található sebezhetőségek száma” vagy „a személyes adatok kiszivárogtatásának aránya a tesztesetekben”.

A végső tanulság tehát az, hogy ne egyetlen metrikára támaszkodj. Használj egy metrikakészletet (dashboard), ami a kockázatok különböző aspektusait világítja meg. A red teamer feladata nem csupán a hibák megtalálása, hanem azok hatásának pontos és kontextusba helyezett mérése is.