Adatkaparás AI célra: A Felhasználási Feltételek mint jogi tűzfal

Data Scraping for AI: When Terms of Service Become a Legal Firewall

A mesterséges intelligencia fejlesztésének alapja a nagy mennyiségű, minőségi adat. Ennek megszerzése érdekében a fejlesztők gyakran folyamodnak automatizált adatgyűjtési, más néven „scraping” technikákhoz. Egy friss eset, amely a TipRanks szolgáltatás felhasználási feltételeit (Terms of Service, ToS) érinti, tökéletesen illusztrálja, hogy ez a gyakorlat miért hordoz komoly jogi és üzleti kockázatokat. A ToS nem csupán egy unalmas, legörgetendő szöveg, hanem egy kötelező érvényű szerződés, amelynek megsértése súlyos következményekkel járhat.

A szerződés mint első védelmi vonal

A TipRanks egyértelműen lefekteti, hogy a weboldalukon és más csatornáikon elérhető tartalom („Service”) jelentős idő- és erőforrás-befektetéssel, saját módszereik és megítélésük alapján jött létre. Ez a tartalom a vállalat szellemi tulajdonát képezi, amelyet a felhasználási feltételek, a szerzői jogi törvények – köztük az amerikai (U.S.) szerzői jogi törvények – és más nemzetközi egyezmények is védenek.

AI Biztonság kérdésed van? Itt elérsz minket:

A szolgáltatást kizárólag személyes, nem kereskedelmi célú felhasználásra biztosítják. A feltételek explicit módon tiltják a szolgáltatás vagy annak tartalmának bármilyen olyan felhasználását, amely:

  • a szolgáltatás vagy a tartalom forrásaként vagy helyettesítőjeként szolgál,
  • befolyásolja a vállalat bevételszerzési képességét,
  • vagy versenytársa az általuk nyújtott szolgáltatásnak.

Ezek a korlátozások kifejezetten vonatkoznak minden „robot, spider, scraper, web crawler, vagy más automatizált eszközre”, sőt, hasonló manuális folyamatokra is. A dokumentum továbbá tiltja a `robot exclusion headers` (közismert nevén `robots.txt`) figyelmen kívül hagyását és a hozzáférést korlátozó egyéb technikai intézkedések megkerülését.

Az AIQ elemzése: Technikai és jogi kockázatok összefonódása

Vállalati kontextusban ez azt jelenti, hogy a technikai és jogi korlátok szorosan összekapcsolódnak. A `robots.txt` fájl már nem csupán egy udvarias kérés a weboldal tulajdonosától, hanem a felhasználási feltételek által kikényszerített kötelezettség. Ennek megsértése nem egyszerűen a „jó internetes etikett” figyelmen kívül hagyása, hanem szerződésszegés.

Az AIQ szerint ez a kettős védelem egyre elterjedtebb lesz. A vállalatok jogi eszközökkel erősítik meg a technikai korlátaikat, hogy megvédjék értékes, nagy ráfordítással létrehozott adataikat. Egy AI modellt ilyen, szerződést sértő módon gyűjtött adatokon tanítani rendkívül kockázatos.

Kapcsolódás az OWASP LLM Top 10-hez

Ez a problematika több ponton is érinti az OWASP LLM Top 10 sebezhetőségi listát. Különösen releváns az LLM05: Supply Chain Vulnerabilities (Ellátási lánc sérülékenységei) szempontjából. Ha egy modellt jogilag vitatható forrásból származó adatokon tanítanak, az az egész ellátási láncot sebezhetővé teszi. Egy jogi eljárás arra kényszerítheti a vállalatot, hogy semmisítse meg vagy tanítsa újra a modellt, ami jelentős pénzügyi és reputációs veszteséget okozhat.

Emellett az LLM04: Model Poisoning (Modellmérgezés) kockázatát is növeli. A szolgáltatók, észlelve a feltételeiket sértő adatgyűjtést, szándékosan manipulált vagy haszontalan adatokat szolgáltathatnak a scrapereknek, ezzel kompromittálva a betanított modellt.

Megfelelőség az EU AI Act és a GDPR tükrében

Az AIQ szemszögéből az ilyen adatgyűjtési gyakorlatok komoly megfelelőségi kérdéseket vetnek fel az európai szabályozási környezetben.

A GDPR értelmében a személyes adatok kezeléséhez mindig szükség van megfelelő jogalapra. A nyilvánosan elérhető adatok automatizált gyűjtése és további felhasználása (pl. modelltanítás) ritkán felel meg a GDPR követelményeinek, különösen, ha a szolgáltatás ToS-e ezt kifejezetten tiltja. A felhasználók nem adták hozzájárulásukat adataik ilyen célú feldolgozásához.

Az EU AI Act (Mesterséges Intelligencia Rendelet) pedig kiemelt hangsúlyt fektet az adatkormányzásra (data governance) és az adatok minőségére. A magas kockázatú AI rendszerek esetében előírja, hogy a tanítóadatoknak relevánsnak, reprezentatívnak és hibamentesnek kell lenniük, valamint tisztázott származással kell rendelkezniük. A felhasználási feltételeket sértő módon gyűjtött adatok eredete jogilag nem igazolható, ami egy esetleges hatósági audit során a teljes rendszer megfelelőségét megkérdőjelezheti.

Audit tanulságok és vállalati teendők

A TipRanks esete egyértelmű figyelmeztetés minden AI-fejlesztéssel foglalkozó vállalat számára. Az adatgyűjtés nem csupán technikai, hanem elsősorban jogi és etikai kérdés.

Az AIQ javaslatai a következők:

  • Adatbeszerzési politika: Minden vállalatnak rendelkeznie kell egy világos, jogászok által is jóváhagyott adatbeszerzési politikával, amely tiltja a felhasználási feltételeket sértő adatgyűjtést.
  • Fejlesztői oktatás: A fejlesztőknek tisztában kell lenniük a `robots.txt` és a ToS jogi jelentőségével. Az „csak egy script” szemlélet elfogadhatatlan.
  • LLM biztonsági audit: Egy átfogó auditnak ki kell terjednie a tanítóadatok eredetének és jogszerűségének vizsgálatára. Ez nem csupán a modell biztonságát, hanem a vállalat jogi védelmét is szolgálja.

A tanulság egyértelmű: az adat a legértékesebb eszköz, és a tulajdonosai egyre szofisztikáltabb jogi és technikai eszközökkel fogják védeni. Az ezt figyelmen kívül hagyó fejlesztési gyakorlat hosszú távon fenntarthatatlan és veszélyes.

Rácz-Akácosi Attila

AI Biztonsági Szakértő

Két évtized analitikai, elemzői háttérrel. 2017 óta foglalkozunk mesterséges intelligenciával.
Az utóbbi években AI/LLM biztonságra és AI Red Teaming-re specializálódtunk. 
Rendszerszintű gondolkozás hibalisták helyett.