Az egyesült államokbeli kiadók a közös feltérképezést követelik meg, hogy hagyják abba tartalmuk lekaparását

A Digital Content Next, az egyesült államokbeli digitális kiadókat képviselő kereskedelmi testület a Common Crawl Foundation-nek küldött egy nyilatkozatot a Common Crawl Foundation-nek.

A levél azt követeli, hogy a Common Crawl hagyja abba a kiadói tartalom gyűjtését, és távolítsa el az adatkészleteiben már szereplő anyagokat.

A DCN vezérigazgatója, Jason Kint egy blogbejegyzésben jelentette be a jogi nyilatkozatot, a Press Gazette pedig további részleteket közölt a levélből ezen a héten.

A Common Crawl 2007 óta havonta több milliárd új oldalt térképez fel, hogy ingyenes nyilvános archívumot hozzon létre. Ezt az archívumot használták fel a ma használatos mesterséges intelligencia modellek sok részének betanítására. Az OpenAI GPT-3 papírja a szűrt Common Crawl-t a modell képzési keverékének 60%-aként tüntette fel.

A vita minden olyan webhely esetében számít, amely blokkolja az AI-robotokat. A Common Crawl bejárójának, a CCBotnak a blokkolása leállítja a jövőbeni gyűjtést, de nem érinti az archívumban már lévő tartalmat, amelyet továbbra is bárki letölthet.

Amit a DCN megkövetel

A levél felszólítja a Common Crawl-t, hogy hagyja abba „a DCN-tagvállalatoktól származó, szerzői joggal védett, fizetős, előfizetői vagy más módon védett tartalmak lekaparását, megtartását vagy megosztását adatkészleteiben”, és távolítsa el a már összegyűjtött tagtartalmakat.

A DCN azt állítja, hogy a Common Crawl „kirívóan megsértette” a szerzői jogokat azáltal, hogy létrehozta adatkészleteit és megosztotta azokat az AI-cégekkel.

A levél amellett érvel, hogy „a szerzői jogi törvény nem egy opt-out rendszer”. Más szóval, a DCN álláspontja az, hogy a megjelenítőknek nem kell kérniük a kizárást. A Common Crawlnak engedélyre van szüksége a felvételükhöz.

Kint azt írta, hogy a közlemény:

„megkérdőjelezi azt az egyre erősödő feltételezést, hogy a jelentős befektetéssel létrehozott tartalom összegyűjthető, tárolható, újrahasznosítható és pénzzé tehető pusztán azért, mert technikailag hozzáférhető.”

Miért kételkedik a DCN az eltávolítási folyamatban?

A DCN levél megkérdőjelezi, hogy a Common Crawl követi-e a leiratkozási utasításokat, és hogy eltávolítja-e a tartalmat, ha kérik. A Press Gazette szerint a DCN ügyvédei azt vizsgálják, hogy a Common Crawl kiadóknak tett nyilatkozatai „pontatlanok vagy félrevezetőek lehettek-e”.

A Common Crawl nyilvános nyilvántartást tesz közzé azokról a webhelyekről, amelyek kérték, hogy ne törlődjenek. Tartalmazza az Associated Press, a BBC és a News/Media Alliance nagyszabású beadványát, amely több száz tartományra terjed ki. A Press Gazette jelentése szerint a listán más nagy kiadók is szerepelnek.

Nem ez az első alkalom, hogy megkérdőjelezik az eltávolítási folyamatot. A The Atlantic novemberben arról számolt be, hogy a The New York Times és a dán kiadók tartalma még mindig elérhető volt, miután a Common Crawl beleegyezett az eltávolításába.

Common Crawl’s Response

A Common Crawl ügyvezető igazgatója, Rich Skrenta nem kívánta kommentálni a levelet, amikor a Press Gazette megkereste.

Korábban is visszautasította a hasonló állításokat. Egy novemberi blogbejegyzésben, amely a The Atlantic-nak válaszolt, Skrenta tagadta, hogy a szervezet hazudott a kiadóknak, vagy fizetőfalakkal ellátott anyagokat kapar.

Elmondta, hogy az archívum fájlformátuma a megjelenés után nem szerkeszthető anélkül, hogy megsértené annak integritását. Ehelyett a Common Crawl azt állítja, hogy eltávolítja vagy kiszűri az érintett URL-eket a következő feltérképezésekből, és elérhetetlenné teszi őket nyilvános eszközei és indexei révén:

„Amikor egy kiadó arra kér bennünket, hogy távolítsuk el a korábban feltérképezett anyagokat, azonnal reagálunk, és elindítjuk az adatkészletünk műszaki felépítését tükröző eltávolítási folyamatot.”

Hozzátette:

„A Common Crawlnál senki sem állította, hogy ez a munka azonnali vagy teljes volt; inkább nyíltak voltunk a bonyolultságáról és a folyamatos jellegéről.”

Egy e heti fórumbejegyzésben Skrenta elmondta, hogy a Common Crawl hozzájárul a nyílt szabványok munkájához, hogy a webhelyek hogyan fejezik ki a mesterséges intelligencia lekopogtatási preferenciáit.

Miért számít ez?

A DCN-levél a tárolt archívumot célozza meg, nem csak a jövőbeni feltérképezést, és azzal érvel, hogy a kiadók terhei ne háruljanak a leiratkozásra.

A BuzzStream mintájában szereplő legtöbb kiadó már meghozta a blokkoló döntést, az általa ellenőrzött 100 híroldal 79%-a letiltott legalább egy oktatóbotot. A Cloudflare januárban ismertetett éves áttekintési adatai szerint a CCBot a legteljesebb tiltó direktívákkal rendelkező robotok között található a legnépszerűbb domaineken. A DCN felteszi a kérdést, hogy mit érnek el ezek a blokkok, ha éveken át tartó tartalom továbbra is elérhető marad a képzés számára.

Előre tekintve

Az, hogy a DCN eszkalálódik-e, attól függ, hogyan reagál a Common Crawl, és a Common Crawl nem közölte, hogyan fog. A két fél eltérő szabályokat szeretne arra vonatkozóan, hogy ki cselekszik először.

A Skrenta támogatja a szabványos munkát, amely lehetővé teszi a webhelyek számára, hogy kifejtsék lekaparási preferenciáikat, amely modellként továbbra is lemond. Az Egyesült Királyság CMA-ja hasonló utat járt be, amikor megkövetelte a Google-tól, hogy engedélyezze a kiadóknak, hogy leiratkozhassanak a mesterséges intelligencia keresési funkcióiról.

A DCN azt állítja, hogy a kaparóknak először engedélyre van szükségük. Ha több kereskedelmi csoport is elfogadja ezt az érvet, a nyomás az egyes robots.txt fájlokról magára az archívumra száll át.