A mesterséges intelligencia fejlesztésének alapja a nagy mennyiségű, minőségi adat. Ennek megszerzése érdekében a fejlesztők gyakran folyamodnak automatizált adatgyűjtési, más néven „scraping” technikákhoz. Egy friss eset, amely a TipRanks szolgáltatás felhasználási feltételeit (Terms of Service, ToS) érinti, tökéletesen illusztrálja, hogy ez a gyakorlat miért hordoz komoly jogi és üzleti kockázatokat. A ToS nem csupán egy unalmas, legörgetendő szöveg, hanem egy kötelező érvényű szerződés, amelynek megsértése súlyos következményekkel járhat.
A szerződés mint első védelmi vonal
A TipRanks egyértelműen lefekteti, hogy a weboldalukon és más csatornáikon elérhető tartalom („Service”) jelentős idő- és erőforrás-befektetéssel, saját módszereik és megítélésük alapján jött létre. Ez a tartalom a vállalat szellemi tulajdonát képezi, amelyet a felhasználási feltételek, a szerzői jogi törvények – köztük az amerikai (U.S.) szerzői jogi törvények – és más nemzetközi egyezmények is védenek.
A szolgáltatást kizárólag személyes, nem kereskedelmi célú felhasználásra biztosítják. A feltételek explicit módon tiltják a szolgáltatás vagy annak tartalmának bármilyen olyan felhasználását, amely:
- a szolgáltatás vagy a tartalom forrásaként vagy helyettesítőjeként szolgál,
- befolyásolja a vállalat bevételszerzési képességét,
- vagy versenytársa az általuk nyújtott szolgáltatásnak.
Ezek a korlátozások kifejezetten vonatkoznak minden „robot, spider, scraper, web crawler, vagy más automatizált eszközre”, sőt, hasonló manuális folyamatokra is. A dokumentum továbbá tiltja a `robot exclusion headers` (közismert nevén `robots.txt`) figyelmen kívül hagyását és a hozzáférést korlátozó egyéb technikai intézkedések megkerülését.
Az AIQ elemzése: Technikai és jogi kockázatok összefonódása
Vállalati kontextusban ez azt jelenti, hogy a technikai és jogi korlátok szorosan összekapcsolódnak. A `robots.txt` fájl már nem csupán egy udvarias kérés a weboldal tulajdonosától, hanem a felhasználási feltételek által kikényszerített kötelezettség. Ennek megsértése nem egyszerűen a „jó internetes etikett” figyelmen kívül hagyása, hanem szerződésszegés.
Az AIQ szerint ez a kettős védelem egyre elterjedtebb lesz. A vállalatok jogi eszközökkel erősítik meg a technikai korlátaikat, hogy megvédjék értékes, nagy ráfordítással létrehozott adataikat. Egy AI modellt ilyen, szerződést sértő módon gyűjtött adatokon tanítani rendkívül kockázatos.
Kapcsolódás az OWASP LLM Top 10-hez
Ez a problematika több ponton is érinti az OWASP LLM Top 10 sebezhetőségi listát. Különösen releváns az LLM05: Supply Chain Vulnerabilities (Ellátási lánc sérülékenységei) szempontjából. Ha egy modellt jogilag vitatható forrásból származó adatokon tanítanak, az az egész ellátási láncot sebezhetővé teszi. Egy jogi eljárás arra kényszerítheti a vállalatot, hogy semmisítse meg vagy tanítsa újra a modellt, ami jelentős pénzügyi és reputációs veszteséget okozhat.
Emellett az LLM04: Model Poisoning (Modellmérgezés) kockázatát is növeli. A szolgáltatók, észlelve a feltételeiket sértő adatgyűjtést, szándékosan manipulált vagy haszontalan adatokat szolgáltathatnak a scrapereknek, ezzel kompromittálva a betanított modellt.
Megfelelőség az EU AI Act és a GDPR tükrében
Az AIQ szemszögéből az ilyen adatgyűjtési gyakorlatok komoly megfelelőségi kérdéseket vetnek fel az európai szabályozási környezetben.
A GDPR értelmében a személyes adatok kezeléséhez mindig szükség van megfelelő jogalapra. A nyilvánosan elérhető adatok automatizált gyűjtése és további felhasználása (pl. modelltanítás) ritkán felel meg a GDPR követelményeinek, különösen, ha a szolgáltatás ToS-e ezt kifejezetten tiltja. A felhasználók nem adták hozzájárulásukat adataik ilyen célú feldolgozásához.
Az EU AI Act (Mesterséges Intelligencia Rendelet) pedig kiemelt hangsúlyt fektet az adatkormányzásra (data governance) és az adatok minőségére. A magas kockázatú AI rendszerek esetében előírja, hogy a tanítóadatoknak relevánsnak, reprezentatívnak és hibamentesnek kell lenniük, valamint tisztázott származással kell rendelkezniük. A felhasználási feltételeket sértő módon gyűjtött adatok eredete jogilag nem igazolható, ami egy esetleges hatósági audit során a teljes rendszer megfelelőségét megkérdőjelezheti.
Audit tanulságok és vállalati teendők
A TipRanks esete egyértelmű figyelmeztetés minden AI-fejlesztéssel foglalkozó vállalat számára. Az adatgyűjtés nem csupán technikai, hanem elsősorban jogi és etikai kérdés.
Az AIQ javaslatai a következők:
- Adatbeszerzési politika: Minden vállalatnak rendelkeznie kell egy világos, jogászok által is jóváhagyott adatbeszerzési politikával, amely tiltja a felhasználási feltételeket sértő adatgyűjtést.
- Fejlesztői oktatás: A fejlesztőknek tisztában kell lenniük a `robots.txt` és a ToS jogi jelentőségével. Az „csak egy script” szemlélet elfogadhatatlan.
- LLM biztonsági audit: Egy átfogó auditnak ki kell terjednie a tanítóadatok eredetének és jogszerűségének vizsgálatára. Ez nem csupán a modell biztonságát, hanem a vállalat jogi védelmét is szolgálja.
A tanulság egyértelmű: az adat a legértékesebb eszköz, és a tulajdonosai egyre szofisztikáltabb jogi és technikai eszközökkel fogják védeni. Az ezt figyelmen kívül hagyó fejlesztési gyakorlat hosszú távon fenntarthatatlan és veszélyes.