Az egyesült államokbeli kiadók a közös feltérképezést követelik meg, hogy hagyják abba tartalmuk lekaparását

Peter

A Digital Content Next, az egyesült államokbeli digitális kiadókat képviselő kereskedelmi testület a Common Crawl Foundation-nek küldött egy nyilatkozatot a Common Crawl Foundation-nek.

A levél azt követeli, hogy a Common Crawl hagyja abba a kiadói tartalom gyűjtését, és távolítsa el az adatkészleteiben már szereplő anyagokat.

A DCN vezérigazgatója, Jason Kint egy blogbejegyzésben jelentette be a jogi nyilatkozatot, a Press Gazette pedig további részleteket közölt a levélből ezen a héten.

A Common Crawl 2007 óta havonta több milliárd új oldalt térképez fel, hogy ingyenes nyilvános archívumot hozzon létre. Ezt az archívumot használták fel a ma használatos mesterséges intelligencia modellek sok részének betanítására. Az OpenAI GPT-3 papírja a szűrt Common Crawl-t a modell képzési keverékének 60%-aként tüntette fel.

A vita minden olyan webhely esetében számít, amely blokkolja az AI-robotokat. A Common Crawl bejárójának, a CCBotnak a blokkolása leállítja a jövőbeni gyűjtést, de nem érinti az archívumban már lévő tartalmat, amelyet továbbra is bárki letölthet.

Amit a DCN megkövetel

A levél felszólítja a Common Crawl-t, hogy hagyja abba „a DCN-tagvállalatoktól származó, szerzői joggal védett, fizetős, előfizetői vagy más módon védett tartalmak lekaparását, megtartását vagy megosztását adatkészleteiben”, és távolítsa el a már összegyűjtött tagtartalmakat.

A DCN azt állítja, hogy a Common Crawl „kirívóan megsértette” a szerzői jogokat azáltal, hogy létrehozta adatkészleteit és megosztotta azokat az AI-cégekkel.

A levél amellett érvel, hogy „a szerzői jogi törvény nem egy opt-out rendszer”. Más szóval, a DCN álláspontja az, hogy a megjelenítőknek nem kell kérniük a kizárást. A Common Crawlnak engedélyre van szüksége a felvételükhöz.

Kint azt írta, hogy a közlemény:

„megkérdőjelezi azt az egyre erősödő feltételezést, hogy a jelentős befektetéssel létrehozott tartalom összegyűjthető, tárolható, újrahasznosítható és pénzzé tehető pusztán azért, mert technikailag hozzáférhető.”

Miért kételkedik a DCN az eltávolítási folyamatban?

A DCN levél megkérdőjelezi, hogy a Common Crawl követi-e a leiratkozási utasításokat, és hogy eltávolítja-e a tartalmat, ha kérik. A Press Gazette szerint a DCN ügyvédei azt vizsgálják, hogy a Common Crawl kiadóknak tett nyilatkozatai „pontatlanok vagy félrevezetőek lehettek-e”.

A Common Crawl nyilvános nyilvántartást tesz közzé azokról a webhelyekről, amelyek kérték, hogy ne törlődjenek. Tartalmazza az Associated Press, a BBC és a News/Media Alliance nagyszabású beadványát, amely több száz tartományra terjed ki. A Press Gazette jelentése szerint a listán más nagy kiadók is szerepelnek.

Nem ez az első alkalom, hogy megkérdőjelezik az eltávolítási folyamatot. A The Atlantic novemberben arról számolt be, hogy a The New York Times és a dán kiadók tartalma még mindig elérhető volt, miután a Common Crawl beleegyezett az eltávolításába.

Common Crawl’s Response

A Common Crawl ügyvezető igazgatója, Rich Skrenta nem kívánta kommentálni a levelet, amikor a Press Gazette megkereste.

Korábban is visszautasította a hasonló állításokat. Egy novemberi blogbejegyzésben, amely a The Atlantic-nak válaszolt, Skrenta tagadta, hogy a szervezet hazudott a kiadóknak, vagy fizetőfalakkal ellátott anyagokat kapar.

Elmondta, hogy az archívum fájlformátuma a megjelenés után nem szerkeszthető anélkül, hogy megsértené annak integritását. Ehelyett a Common Crawl azt állítja, hogy eltávolítja vagy kiszűri az érintett URL-eket a következő feltérképezésekből, és elérhetetlenné teszi őket nyilvános eszközei és indexei révén:

„Amikor egy kiadó arra kér bennünket, hogy távolítsuk el a korábban feltérképezett anyagokat, azonnal reagálunk, és elindítjuk az adatkészletünk műszaki felépítését tükröző eltávolítási folyamatot.”

Hozzátette:

„A Common Crawlnál senki sem állította, hogy ez a munka azonnali vagy teljes volt; inkább nyíltak voltunk a bonyolultságáról és a folyamatos jellegéről.”

Egy e heti fórumbejegyzésben Skrenta elmondta, hogy a Common Crawl hozzájárul a nyílt szabványok munkájához, hogy a webhelyek hogyan fejezik ki a mesterséges intelligencia lekopogtatási preferenciáit.

Miért számít ez?

A DCN-levél a tárolt archívumot célozza meg, nem csak a jövőbeni feltérképezést, és azzal érvel, hogy a kiadók terhei ne háruljanak a leiratkozásra.

A BuzzStream mintájában szereplő legtöbb kiadó már meghozta a blokkoló döntést, az általa ellenőrzött 100 híroldal 79%-a letiltott legalább egy oktatóbotot. A Cloudflare januárban ismertetett éves áttekintési adatai szerint a CCBot a legteljesebb tiltó direktívákkal rendelkező robotok között található a legnépszerűbb domaineken. A DCN felteszi a kérdést, hogy mit érnek el ezek a blokkok, ha éveken át tartó tartalom továbbra is elérhető marad a képzés számára.

Előre tekintve

Az, hogy a DCN eszkalálódik-e, attól függ, hogyan reagál a Common Crawl, és a Common Crawl nem közölte, hogyan fog. A két fél eltérő szabályokat szeretne arra vonatkozóan, hogy ki cselekszik először.

A Skrenta támogatja a szabványos munkát, amely lehetővé teszi a webhelyek számára, hogy kifejtsék lekaparási preferenciáikat, amely modellként továbbra is lemond. Az Egyesült Királyság CMA-ja hasonló utat járt be, amikor megkövetelte a Google-tól, hogy engedélyezze a kiadóknak, hogy leiratkozhassanak a mesterséges intelligencia keresési funkcióiról.

A DCN azt állítja, hogy a kaparóknak először engedélyre van szükségük. Ha több kereskedelmi csoport is elfogadja ezt az érvet, a nyomás az egyes robots.txt fájlokról magára az archívumra száll át.


A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.