Mesterségesintelligencia-cégek és archív hírtartalom: súlyos szerzőijog-sértés gyanúja, miközben perelik az OpenAI-t és a Perplexityt
Kilenc országban nagyjából 245 hírközlő szervezet próbálja letiltani az Internet Archive feltérképező programjait. Ezek automatikus szoftveres robotok, amelyek a weboldalakon megjelenő tartalmat rögzítik, megjelenítik és archiválják az Internet Archive nyilvános felületén, a Wayback Machine-en.
Az archívum több mint egybillió, egészen 1996-ig visszamenő weboldalt tartalmaz, így a világ egyik legnagyobb nyilvános, közös információs forrásának számít. Ide tartoznak olyan nagy hírintézmények korábbi cikkei is, mint a CNN, a The New York Times, a The Guardian vagy a USA Today.
Ezeket a weboldalakat sokféle célra használják, például elsődleges forrásként a történészek, illetve a megjelenés utáni módosítások bizonyítására.
Számos hírközlő szervezet most azért igyekszik blokkolni a feltérképezőket, mert az MI-cégek az archívum tartalmát használják nagy nyelvi modellek (LLM-ek) betanítására, anélkül hogy tisztességes díjat fizetnének vagy engedélyt kérnének.
Egy MI-észlelésre szakosodott cég, az Originality AI elemzése szerint több mint 20 nagy hírportál már most is blokkolja az ia_archiverbotot, azt a fő webes feltérképezőt, amelyet az Internet Archive a Wayback Machine-hez használ.
Legalább egyet azonban az archívum négy feltérképező robotja közül 241 nemzetközi híroldal blokkol. A blokkolt oldalak jelentős része a USA Today Co tulajdonában van, amely az Egyesült Államok legnagyobb napilapkiadója. Ez gyakorlatilag azt jelenti, hogy több száz helyi lap tűnt el a történelmi nyilvántartásokból.
Milyen kockázatokkal jár, ha archív tartalmat használnak MI-képzésre
Az archív hírtartalom hatalmas mennyiségű, jó minőségű szöveget és képet biztosít a nagy léptékű MI-modellek számára, hogy azok emberibb stílusú írásmódot tanuljanak. Ez a tartalom URL-en és API-felületen keresztül is elérhető, ami lehetővé teszi, hogy különböző szoftverek kommunikáljanak egymással és adatokat kérjenek le, mintegy hídként a rendszerek között.
Ez még könnyebbé teszi az MI-vállalatok számára az archív adatok elérését és a modellek betanítását.
További előny, hogy az Internet Archive-ban tárolt tartalom már eleve strukturált, forrásmegjelöléssel ellátott és dátummal jelzett.
Az Internet Archive adatai nagy részét már azonosították kulcsfontosságú MI-képzési adathalmazokban. Ez azonban komoly kockázatot jelent a hírközlő szervezetek számára, amelyek már most is perlik az olyan MI-cégeket, mint a Perplexity vagy az OpenAI a szerzői jog esetleges megsértése miatt.
„A probléma az, hogy az Internet Archive-on található Times-tartalmat az MI-vállalatok a szerzői jog megsértésével használják, hogy közvetlen versenytársként lépjenek fel velünk szemben” – mondta Graham James, a The New York Times szóvivője a The Next Webnek.
„A Times hatalmas erőforrásokat fektet az eredeti újságírásba, és ezt a munkát nem lenne szabad a beleegyezésünk nélkül felhasználni.”
Más szervezetek, például a The Guardian, óvatosabb megközelítést választottak: nem teljesen tiltják, hanem korlátozzák az archívum hozzáférését.
Az Internet Archive szerint csak „járulékos veszteség”
A Wayback Machine igazgatója, Mark Graham hangsúlyozza, hogy ők csupán „járulékos veszteségnek” számítanak, a valódi felelősök pedig azok az MI-cégek, amelyek az archívum felületein keresztül férnek hozzá a korábbi tartalmakhoz.
Az archívum ugyanakkor saját intézkedéseket is hozott a visszaélések korlátozására. Ide tartozik például egyes oldalak anyagainak nagy mennyiségű letöltésének megakadályozása, illetve az automatizált adatkinyerés korlátozása bizonyos esetekben.
Graham kiemelte, hogy az archívum kulcsszerepet játszik a megőrzésben. Nélküle azokat a cikkeket, amelyeket nem archiválnak, engedély nélkül és elszámoltathatóság nélkül lehetne módosítani: meg lehetne változtatni vagy törölni idézeteket, javítani hibákat, illetve átírni állításokat és hivatalos nyilatkozatokat.
Jelenleg ezeket a változtatásokat a Wayback Machine követi nyomon.
Mindez arra késztetett néhány hírközlő szervezetet, hogy megpróbáljon együttműködni az Internet Archive-val, és olyan kompromisszumokat vagy megoldásokat találjon, amelyek a hozzáférés korlátozását, nem pedig teljes tiltását jelentik.
Hasonlóképpen, a Fight for the Future nevű, digitális jogokat védő nonprofit szervezet is petíciót indított a blokkolás ellen, amelyet már 100 jelenleg is aktív újságíró írt alá – egy olyan időszakban, amikor a közérdekű nyilvántartások és a történelem mind gyakrabban válnak vita tárgyává.