A Digital Content Next, az egyesült államokbeli digitális kiadókat képviselő kereskedelmi testület a Common Crawl Foundation-nek küldött egy nyilatkozatot a Common Crawl Foundation-nek.
A levél azt követeli, hogy a Common Crawl hagyja abba a kiadói tartalom gyűjtését, és távolítsa el az adatkészleteiben már szereplő anyagokat.
A DCN vezérigazgatója, Jason Kint egy blogbejegyzésben jelentette be a jogi nyilatkozatot, a Press Gazette pedig további részleteket közölt a levélből ezen a héten.
A Common Crawl 2007 óta havonta több milliárd új oldalt térképez fel, hogy ingyenes nyilvános archívumot hozzon létre. Ezt az archívumot használták fel a ma használatos mesterséges intelligencia modellek sok részének betanítására. Az OpenAI GPT-3 papírja a szűrt Common Crawl-t a modell képzési keverékének 60%-aként tüntette fel.
A vita minden olyan webhely esetében számít, amely blokkolja az AI-robotokat. A Common Crawl bejárójának, a CCBotnak a blokkolása leállítja a jövőbeni gyűjtést, de nem érinti az archívumban már lévő tartalmat, amelyet továbbra is bárki letölthet.
Amit a DCN megkövetel
A levél felszólítja a Common Crawl-t, hogy hagyja abba „a DCN-tagvállalatoktól származó, szerzői joggal védett, fizetős, előfizetői vagy más módon védett tartalmak lekaparását, megtartását vagy megosztását adatkészleteiben”, és távolítsa el a már összegyűjtött tagtartalmakat.
A DCN azt állítja, hogy a Common Crawl „kirívóan megsértette” a szerzői jogokat azáltal, hogy létrehozta adatkészleteit és megosztotta azokat az AI-cégekkel.
A levél amellett érvel, hogy „a szerzői jogi törvény nem egy opt-out rendszer”. Más szóval, a DCN álláspontja az, hogy a megjelenítőknek nem kell kérniük a kizárást. A Common Crawlnak engedélyre van szüksége a felvételükhöz.
Kint azt írta, hogy a közlemény:
„megkérdőjelezi azt az egyre erősödő feltételezést, hogy a jelentős befektetéssel létrehozott tartalom összegyűjthető, tárolható, újrahasznosítható és pénzzé tehető pusztán azért, mert technikailag hozzáférhető.”
Miért kételkedik a DCN az eltávolítási folyamatban?
A DCN levél megkérdőjelezi, hogy a Common Crawl követi-e a leiratkozási utasításokat, és hogy eltávolítja-e a tartalmat, ha kérik. A Press Gazette szerint a DCN ügyvédei azt vizsgálják, hogy a Common Crawl kiadóknak tett nyilatkozatai „pontatlanok vagy félrevezetőek lehettek-e”.
A Common Crawl nyilvános nyilvántartást tesz közzé azokról a webhelyekről, amelyek kérték, hogy ne törlődjenek. Tartalmazza az Associated Press, a BBC és a News/Media Alliance nagyszabású beadványát, amely több száz tartományra terjed ki. A Press Gazette jelentése szerint a listán más nagy kiadók is szerepelnek.
Nem ez az első alkalom, hogy megkérdőjelezik az eltávolítási folyamatot. A The Atlantic novemberben arról számolt be, hogy a The New York Times és a dán kiadók tartalma még mindig elérhető volt, miután a Common Crawl beleegyezett az eltávolításába.
Common Crawl’s Response
A Common Crawl ügyvezető igazgatója, Rich Skrenta nem kívánta kommentálni a levelet, amikor a Press Gazette megkereste.
Korábban is visszautasította a hasonló állításokat. Egy novemberi blogbejegyzésben, amely a The Atlantic-nak válaszolt, Skrenta tagadta, hogy a szervezet hazudott a kiadóknak, vagy fizetőfalakkal ellátott anyagokat kapar.
Elmondta, hogy az archívum fájlformátuma a megjelenés után nem szerkeszthető anélkül, hogy megsértené annak integritását. Ehelyett a Common Crawl azt állítja, hogy eltávolítja vagy kiszűri az érintett URL-eket a következő feltérképezésekből, és elérhetetlenné teszi őket nyilvános eszközei és indexei révén:
„Amikor egy kiadó arra kér bennünket, hogy távolítsuk el a korábban feltérképezett anyagokat, azonnal reagálunk, és elindítjuk az adatkészletünk műszaki felépítését tükröző eltávolítási folyamatot.”
Hozzátette:
„A Common Crawlnál senki sem állította, hogy ez a munka azonnali vagy teljes volt; inkább nyíltak voltunk a bonyolultságáról és a folyamatos jellegéről.”
Egy e heti fórumbejegyzésben Skrenta elmondta, hogy a Common Crawl hozzájárul a nyílt szabványok munkájához, hogy a webhelyek hogyan fejezik ki a mesterséges intelligencia lekopogtatási preferenciáit.
Miért számít ez?
A DCN-levél a tárolt archívumot célozza meg, nem csak a jövőbeni feltérképezést, és azzal érvel, hogy a kiadók terhei ne háruljanak a leiratkozásra.
A BuzzStream mintájában szereplő legtöbb kiadó már meghozta a blokkoló döntést, az általa ellenőrzött 100 híroldal 79%-a letiltott legalább egy oktatóbotot. A Cloudflare januárban ismertetett éves áttekintési adatai szerint a CCBot a legteljesebb tiltó direktívákkal rendelkező robotok között található a legnépszerűbb domaineken. A DCN felteszi a kérdést, hogy mit érnek el ezek a blokkok, ha éveken át tartó tartalom továbbra is elérhető marad a képzés számára.
Előre tekintve
Az, hogy a DCN eszkalálódik-e, attól függ, hogyan reagál a Common Crawl, és a Common Crawl nem közölte, hogyan fog. A két fél eltérő szabályokat szeretne arra vonatkozóan, hogy ki cselekszik először.
A Skrenta támogatja a szabványos munkát, amely lehetővé teszi a webhelyek számára, hogy kifejtsék lekaparási preferenciáikat, amely modellként továbbra is lemond. Az Egyesült Királyság CMA-ja hasonló utat járt be, amikor megkövetelte a Google-tól, hogy engedélyezze a kiadóknak, hogy leiratkozhassanak a mesterséges intelligencia keresési funkcióiról.
A DCN azt állítja, hogy a kaparóknak először engedélyre van szükségük. Ha több kereskedelmi csoport is elfogadja ezt az érvet, a nyomás az egyes robots.txt fájlokról magára az archívumra száll át.
