A tudományos áttörés, ami a gyakorlatban is működik
A mesterséges intelligencia biztonsága terén mérföldkőnek számító bejelentést tett a dél-koreai Selectstar (mely Datumo néven is ismert): a cég „STAR-Teaming” nevű automatizált AI red-teaming keretrendszerét elfogadták az ACL 2026 Findings konferencián. Az ACL (Association for Computational Linguistics) a természetes nyelvi feldolgozás (NLP) kutatásának egyik legelismertebb tudományos fóruma, így az elfogadás önmagában is jelentős validációt jelent. A “STAR-Teaming: A Strategy-Response Multiplex Network Approach to Automated LLM Red Teaming” című tanulmány nem csupán elméleti újdonságot hoz, hanem egy olyan technológiát mutat be, amely már most a vállalati szféra számára is elérhető.
A kutatás során a keretrendszert 17 különböző nagy nyelvi modellen (LLM) tesztelték, köztük olyan iparági nevekkel, mint a Claude, a ChatGPT, a Gemma, a Llama és a Qwen. Az eredmények magukért beszélnek: a STAR-Teaming átlagosan 74.5%-os támadási sikerességi rátát (Attack Success Rate – ASR) ért el a széles körben használt HarmBench benchmarkon. Ez 13.5 százalékpontos javulást jelent a korábbi élvonalbeli megoldásnak számító AutoDAN-Turbo 61.0%-os eredményéhez képest, ugyanabban a tesztkörnyezetben.
A laboratóriumból az üzleti folyamatokba: A Datumo Platform
A legfontosabb fejlemény azonban nem csupán a kutatási eredmény, hanem annak azonnali termékesítése. A STAR-Teaming technológiát már integrálták a Selectstar saját, AI megbízhatósági értékelésre szolgáló vállalati megoldásába, a Datumo Platformba. Ez a lépés egyértelműen jelzi az iparági trendet: az AI biztonsági tesztelése a kutatási fázisból kilépve a folyamatos, operatív vállalati működés részévé válik.
A platformot Dél-Koreában már aktívan alkalmazzák olyan kritikus szektorokban, mint az elektronikai gyártás, háztartási gépek, rendszerintegráció (SI), IT szolgáltatások, sőt, kormányzati szintű, szuverén AI modellfejlesztési kezdeményezésekben is. A Selectstar nyilatkozata szerint az ügyfelek a leggyakrabban az AI szolgáltatásaik élesítése előtt használják a platformot, hogy azonosítsák a potenciális biztonsági kockázatokat és minőségi problémákat. A cég kiemelte:
„Használják a bevezetés után is, különösen akkor, amikor a vállalatok megújítják, frissítik vagy továbbfejlesztik AI szolgáltatásaikat.”
Ez a gyakorlat egybecseng azzal a modern szoftverfejlesztési szemlélettel, ahol a biztonság nem egy egyszeri ellenőrzés, hanem a teljes életciklust végigkísérő, folyamatos tevékenység.
AIQ Elemzés: Mit jelent ez az EU AI Act és az OWASP szemszögéből?
Az AIQ szerint a STAR-Teaminghez hasonló automatizált keretrendszerek megjelenése és termékesítése alapvető változást hoz a vállalati megfelelőség és kockázatkezelés területén, különösen az európai piacon.
EU AI Act és GDPR megfelelőség
Vállalati kontextusban ez azt jelenti, hogy az EU AI Act által előírt robusztussági, biztonsági és kockázatkezelési követelmények teljesítéséhez az egyszeri, manuális red teaming auditok hamarosan elégtelennek bizonyulhatnak. A szabályozók elvárása egyre inkább a folyamatos, dokumentált és megismételhető tesztelési folyamatok felé tolódik. Egy automatizált platform képes arra, hogy szisztematikusan és skálázhatóan tesztelje a modelleket, bizonyítékot szolgáltatva a „beépített biztonság” (security by design) elvének alkalmazására, ami a GDPR szempontjából is kulcsfontosságú.
OWASP LLM Top 10 kockázatok kezelése
Az olyan iparági szervezetek, mint az OWASP, valamint az AI fejlesztés élvonalába tartozó Google és Anthropic is egyre nagyobb hangsúlyt fektetnek a red teamingre. Az AIQ álláspontja szerint az automatizált eszközök drámaian felgyorsíthatják az OWASP LLM Top 10-ben listázott sérülékenységek felderítését. Egy ilyen rendszer szisztematikusan képes támadni a modelleket például prompt injection (LLM01), a modell megtagadását célzó támadások (LLM04) vagy érzékeny adatok kiszivárogtatása (LLM06) ellen, jóval nagyobb lefedettséget biztosítva, mint a kizárólag emberi erőforrásra támaszkodó módszerek.
Audit tanulságok a döntéshozóknak
A legfontosabb tanulság a magyar és európai vállalatok számára, hogy az AI biztonsággal kapcsolatos „kellő gondosság” (due diligence) mércéje emelkedik. A Selectstar maga is megfogalmazta: „Ahogy hatékonyabb megközelítések válnak elérhetővé, a meglévő módszerek gyorsan elavulhatnak, ami azt jelenti, hogy a vállalatoknak folyamatosan fejleszteniük és alkalmazniuk kell a jobb értékelési módszertanokat.” Az, hogy már léteznek piacon elérhető, tudományosan validált automatizált tesztelési platformok, elveszi a „nem álltak rendelkezésre az eszközök” típusú érvelés élét. Az AI biztonsági tesztelés integrálása az LLMOps/MLOps folyamatokba nem csupán technikai, hanem üzleti és jogi szükségszerűséggé válik.