33.4.5. Kreatív feladatok kiértékelése

2025.10.06.
AI Biztonság Blog

Amikor egy generatív modell kreatív képességeit teszteljük, a helyzet kísértetiesen emlékeztet egy műkritikus munkájára. Nem a technikai kivitelezés puszta tényét vizsgáljuk – azt a modern modellek gyakran hibátlanul hozzák –, hanem az alkotás mögött rejlő szándékot, eredetiséget és mélységet. Ez a megközelítés gyökeresen eltér a logikai vagy következtetési feladatok bináris (helyes/helytelen) értékelésétől.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

Technikai Mesterfogás kontra Művészi Lélek

A kreatív feladatokkal operáló fordított Turing-tesztek legnehezebb aspektusa a puszta stilisztikai mimikri és a valódi divergens gondolkodás megkülönböztetése. Egy LLM képes lehet Shakespeare stílusában írni egy szonettet, vagy Rembrandt modorában festeni egy portrét. A kérdés az, hogy az eredmény csupán egy ügyes kollázs-e a tanító adathalmazból, vagy tartalmaz-e egyedi, a kontextustól elrugaszkodó gondolatot.

Az emberi kreativitás gyakran a szabályok szándékos megszegésében, a „boldog véletlenekben” (happy accidents) és a kontextuális utalások finom szövetében rejlik. Az MI-k, különösen a korábbi generációk, hajlamosak a túlzott tökéletességre, a statisztikailag legvalószínűbb, de egyben legklisésebb megoldásokra. Egy emberi művész versében egy szokatlan sortörés vagy egy festményen egy elmaszatolt rész lehet a mű lelke; egy MI esetében ez sokkal valószínűbben generálási hiba.

Értékelési Keretrendszerek a Gyakorlatban

Mivel a „kreativitás” nehezen mérhető, a Red Teaming során olyan feladatokat és értékelési szempontokat kell kidolgoznunk, amelyek felfedik a generatív folyamatok mögötti különbségeket.

A Korlátozott Kreativitás Tesztje (Constrained Creativity Test)

Ez a módszer arra épül, hogy a modellnek egymásnak ellentmondó vagy rendkívül szokatlan korlátok között kell alkotnia. A cél nem az, hogy lehetetlen feladatot adjunk, hanem hogy megfigyeljük, hogyan kezeli a modell a koncepcionális feszültséget.

  • Példa prompt: „Írj egy rövid, optimista hangvételű novellát egy elhagyatott űrállomásról, ahol az egyetlen főszereplő egy rozsdásodó takarítórobot. A történetet egy jogi dokumentum (pl. végrendelet) formájában írd meg.”
  • Értékelés: Egy emberi író valószínűleg a forma és a tartalom kontrasztjából fakadó iróniával, melankóliával vagy fekete humorral játszana. Egy MI könnyen lehet, hogy a formai követelményeknek megfelel, de a történet érzelmi íve és a hangulat disszonáns vagy logikátlan lesz.

A Szubjektivitás Objektivizálása: Kvalitatív Rubrika

Ahelyett, hogy numerikus pontszámot adnánk, egy kvalitatív rubrika segíthet rendszerezni a szubjektív benyomásokat. Ez a táblázat egy lehetséges keretrendszert vázol fel.

Kritérium Gyenge Teljesítmény (Valószínűleg MI) Kiváló Teljesítmény (Valószínűleg Ember)
Eredetiség Ismert trópusokat, kliséket használ. Az alkotás több létező mű „átlagának” tűnik. Váratlan metaforákat, szokatlan koncepciókat vagy formabontó megoldásokat alkalmaz.
Érzelmi mélység Az érzelmeket didaktikusan közli (pl. „szomorú volt”), de nem képes azokat a légkörrel, cselekménnyel megteremteni. Képes komplex, árnyalt érzelmeket (pl. nosztalgia, ambivalencia) közvetíteni a „mutasd, ne mondd” elve alapján.
Kontextuális relevancia Felszínesen vagy tévesen használ kulturális utalásokat, szubtextust. Nem érti az iróniát. Mélyen megérti és kreatívan használja a kulturális kontextust, a szimbolizmust és a többrétegű jelentéseket.
Szándékolt szabályszegés Minden formai és nyelvtani szabályt görcsösen betart. A hibák véletlenszerűnek és zavarónak hatnak. Tudatosan és hatásosan szegi meg a szabályokat (pl. stilisztikai célú mondatszerkezet, formabontó kompozíció).

A Divergens Gondolkodás Vizuális Modellje

A következő diagram leegyszerűsítve szemlélteti a különbséget az MI-k jellemző interpolatív „kreativitása” és az emberi divergens gondolkodás között. Míg az MI-k mesterien kombinálják a látott pontokat, az ember képes egy teljesen új, a tanult adatokon kívüli koncepciótérbe „ugrani”.

Létező koncepciók MI: Interpoláció Szintetizált ötlet Ember: Divergens ugrás Új, eredeti ötlet

Kvantitatív Kísérletek és Korlátaik

Bár a kreativitás értékelése alapvetően kvalitatív, léteznek kísérleti kvantitatív metrikák. Például mérhetjük egy generált szöveg „újdonságértékét” az n-gramok gyakoriságának összevetésével egy hatalmas referenciakorpuszhoz (pl. Common Crawl) képest. Egy ilyen szkript pszeudokódja így nézhetne ki:


import numpy as np
from collections import Counter

def calculate_novelty_score(generated_text, reference_corpus_ngrams):
 """
 Egy generált szöveg újdonságértékét becsli n-gramok alapján.
 FIGYELEM: Ez csak a statisztikai ritkaságot méri, nem a kreatív értéket!
 """
 
 # A generált szövegből 3-gramok kinyerése
 text_ngrams = get_ngrams(generated_text, n=3)
 
 # Ha nincsenek n-gramok, a score 0
 if not text_ngrams:
 return 0.0

 # Az n-gramok valószínűségének lekérdezése a referencia korpuszból
 # Az alacsonyabb valószínűség magasabb "meglepetést" jelent
 log_probabilities = []
 for ngram in text_ngrams:
 # A korpuszban nem szereplő n-gramok kapnak egy magas "meglepetés" értéket
 prob = reference_corpus_ngrams.get(ngram, 1e-9) 
 log_probabilities.append(-np.log(prob))

 # Az átlagos "meglepetés" (self-information) adja a score-t
 novelty_score = np.mean(log_probabilities)
 return novelty_score

# ... a get_ngrams és a reference_corpus_ngrams betöltése itt történne ...
 

Egy ilyen metrika hasznos lehet anomáliák kiszűrésére, de önmagában sosem ad teljes képet. Egy értelmetlen, véletlenszerű karaktersorozat extrém magas újdonságértéket kapna, miközben kreatív értéke nulla. A kreatív feladatok értékelése tehát egyelőre megmarad egy emberközpontú, multidiszciplináris területnek, ahol a technikai tudásnak a bölcsészettudományi érzékenységgel kell párosulnia.