Az új internetes szabályok blokkolják az AI oktatóbotokat

Új szabványokat dolgoznak ki a Robots Exclusion Protocol és a Meta Robots címkék kiterjesztésére, lehetővé téve számukra, hogy megakadályozzák az összes mesterséges intelligencia bejáró számára a nyilvánosan elérhető webes tartalmak képzési célú használatát. A Krishna Madhavan, a Microsoft mesterséges intelligencia fő termékmenedzsere és Fabrice Canel, a Microsoft Bing fő termékmenedzsere által kidolgozott javaslat megkönnyíti az összes főbb AI Training bejáró blokkolását egyetlen egyszerű szabállyal, amely minden egyes bejáróra alkalmazható.

Gyakorlatilag minden legitim bejáró betartja a Robots.txt és a Meta Robots címkéket, ami ezt a javaslatot valóra váltja a kiadók számára, akik nem akarják, hogy tartalmukat mesterséges intelligencia képzési célokra használják fel.

Internet Engineering Task Force (IETF)

Az Internet Engineering Task Force (IETF) egy 1986-ban alapított nemzetközi internetes szabványalkotó csoport, amely olyan szabványok kidolgozását és kodifikációját koordinálja, amelyekben mindenki önkéntesen megállapodik. Például a Robots Exclusion Protocolt 1994-ben önállóan hozták létre, és 2019-ben a Google azt javasolta, hogy az IETF fogadja el hivatalos szabványként, egyeztetett definíciókkal. 2022-ben az IETF közzétett egy hivatalos robotkizárási protokollt, amely meghatározza, hogy mi az, és kiterjeszti az eredeti protokollt.

Három módszer az AI oktatóbotok blokkolására

Az AI-oktatóbotok blokkolására vonatkozó javaslattervezet három módszert javasol a robotok blokkolására:

Robots.txt protokollok
Meta Robots HTML elemek
Alkalmazásréteg válaszfejléc

1. Robots.Txt AI robotok blokkolásához

A javaslattervezet további szabályokat kíván létrehozni, amelyek kiterjesztik a Robots Exclusion Protocolt (Robots.txt) az AI Training Robotokra. Ez némi rendet teremt, és választási lehetőséget ad a megjelenítőknek, hogy milyen robotok térképezhetik fel webhelyeiket.

A Robots.txt protokoll betartása önkéntes, de minden törvényes bejáró hajlamos engedelmeskedni ennek.

A tervezet elmagyarázza az új Robots.txt szabályok célját:

„Míg a Robots Exclusion Protocol lehetővé teszi a szolgáltatástulajdonosok számára annak szabályozását, hogy a robotok néven ismert automatizált kliensek hogyan férhessenek hozzá a szolgáltatásaik URI-ihez, ha egyáltalán hozzáférnek [RFC8288]a protokoll nem szabályozza, hogy a szolgáltatásuk által visszaadott adatok hogyan használhatók fel a generatív AI-alapmodellek betanításához.

Az alkalmazásfejlesztőket felkérjük, hogy tartsák tiszteletben ezeket a címkéket. A címkék azonban nem egyfajta hozzáférési jogosultság.”

Az új robots.txt szabályok és a meta robots HTML-elemek egyik fontos tulajdonsága, hogy a legális mesterséges intelligencia oktató robotjai hajlamosak önként beleegyezni ezeknek a protokolloknak a követésébe, amit minden legitim bot megtesz. Ez leegyszerűsíti a botblokkolást a megjelenítők számára.

Az alábbiak a javasolt Robots.txt szabályok:

DisallowAITraining – utasítja az elemzőt, hogy ne használja fel az adatokat az AI betanítási nyelvi modellhez.

AllowAITraining – utasítja az elemzőt, hogy az adatok felhasználhatók az AI képzési nyelvi modellhez.

2. HTML elem (Robots Meta Tag)

A javasolt metarobotok irányelvei a következők:

3. Alkalmazási réteg válaszfejléc

Az alkalmazási réteg válaszfejléceit a szerver küldi válaszul a böngésző weboldalra vonatkozó kérésére. A javaslat új szabályok hozzáadását javasolja a robotok alkalmazási rétegbeli válaszfejlécéhez:

„DisallowAITraining – utasítja az elemzőt, hogy ne használja fel az adatokat az AI képzési nyelvi modellhez.

AllowAITraining – utasítja az elemzőt, hogy az adatokat fel lehet használni az AI képzési nyelvi modellhez.”

Nagyobb irányítást biztosít

Az AI-cégeket sikertelenül perelték be a bíróságon nyilvánosan elérhető adatok felhasználása miatt. Az AI-cégek kijelentették, hogy méltányos a nyilvánosan elérhető webhelyek feltérképezése, ahogyan azt a keresőmotorok tették évtizedek óta.

Ezek az új protokollok lehetővé teszik a webes megjelenítők számára, hogy irányítsák azokat a bejárókat, amelyek célja a betanítási adatok fogyasztása, így a bejárókat a keresőrobotokkal összehangolják.

Olvassa el a javaslatot az IETF-en:

Robots Exclusion Protocol Extension az AI-tartalom használatának kezelésére